CN108573167A

CN108573167A - 一种基于rdf数据仓库隐私保护的推理控制方法

Info

Publication number: CN108573167A
Application number: CN201810287665.3A
Authority: CN
Inventors: 宁焕生; 齐玉营
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2018-09-25
Anticipated expiration: 2038-04-03
Also published as: CN108573167B

Abstract

本发明提供一种基于RDF数据仓库隐私保护的推理控制方法，能够最大限度地减少用户信息量的丢失。所述方法包括：获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合；根据获取的非敏感三元组集合和敏感三元组集合，确定每个敏感三元组与非敏感三元组之间的推出关系；根据推出关系，从每种推出关系中任意取出一个非敏感三元组，组成一个要删除的非敏感三元组集合T，T有多种组成方式；对每一种T集合计算语义值总和；选择语义值总和最小的T集合，作为目标T集合删除。本发明涉及语义网的数据安全技术领域。

Description

一种基于RDF数据仓库隐私保护的推理控制方法

技术领域

本发明涉及语义网的数据安全技术领域，特别是指一种基于RDF数据仓库隐私保护的推理控制方法。

背景技术

近年来，随着语义网技术的飞速发展，存储和计算的需求日益增大，资源描述框架(Resource Description Framework，RDF)作为语义网的核心技术之一，RDF数据仓库的推理控制研究正在逐渐成为一个新的研究热点。

RDF是语义网中知识表示的标准模型，通常用三元组(主语,谓语,宾语)来表示。RDF也是一种图数据模型，三元组的主语和宾语在图模型中是节点，也被称为实体，谓语在图模型中是边。

RDF数据仓库是用来存储、查询、推理RDF数据的语义仓库，在RDF数据仓库中可以进行推理，例如，可以根据已有的RDF数据推断出未有的RDF数据(即：敏感三元组可以通过蕴涵规则被非敏感三元组推理得出)，容易造成用户隐私的泄露。

发明内容

本发明要解决的技术问题是提供一种基于RDF数据仓库隐私保护的推理控制方法，以解决现有技术所存在的根据已有的RDF数据推断出未有的RDF数据，易造成用户隐私泄露的问题。

为解决上述技术问题，本发明实施例提供一种基于RDF数据仓库隐私保护的推理控制方法，包括：

获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合；

根据获取的非敏感三元组集合和敏感三元组集合，确定每个敏感三元组与非敏感三元组之间的推出关系；

根据推出关系，确定要删除的非敏感三元组，组成一个要删除的非敏感三元组集合T，T有多种组成方式；

对每一种T集合计算语义值总和；

选择语义值总和最小的T集合，作为目标T集合删除。

进一步地，所述根据获取的非敏感三元组集合和敏感三元组集合，确定每个敏感三元组与非敏感三元组之间的推出关系包括：

利用前向链消解闭包算法，确定非敏感三元组集合S的闭包S^*，在确定S^*的过程中得到每个敏感三元组与非敏感三元组之间的推出关系；

其中，T满足S_n表示敏感三元组集合，S_n＝{s₁,s₂,s₃,…,s_n}，s_i表示第i个敏感三元组，T表示要删除的非敏感三元组集合。

进一步地，敏感三元组与非敏感三元组之间的推出关系表示为：

其中，表示敏感三元组s_i可由推理得出；表示能够推理得出敏感三元组s_i的第j个非敏感三元组集合，t_q表示非敏感三元组，q＝1,2,3,…,m；∪表示s_i可由中的任意一个非敏感三元组集合推理得出。

进一步地，所述根据推出关系，确定要删除的非敏感三元组，组成1个或多个要删除的非敏感三元组集合T包括：

根据推出关系，确定要删除的每一个中的非敏感三元组t_q，使得不能推理出s_i；

从每一个中任意选取一个非敏感三元组t_q，组成一个要删除的非敏感三元组集合T，T有多种组成方式。

进一步地，有num(s₁)*num(s₂)*…*num(s_n)种T集合，其中，num(s_i)表示能够推理出敏感三元组s_i的非敏感三元组集合的个数。

进一步地，主语是实例的三元组的语义值是1；

主语是类的三元组的语义值大小根据主语的入度来计算。

进一步地，所述选择语义值总和最小的T集合，作为目标T集合删除包括：

若语义值总和最小的T集合只有一个，则所述T集合为目标T集合并删除。

进一步地，所述选择语义值总和最小的T集合，作为目标T集合删除还包括：

若语义值总和最小的T集合大于一个，则对语义值最小的多个T集合分别进行访问频率计算；

选择访问频率最小的T集合，作为目标T集合删除。

进一步地，访问频率计算公式表示为：

P＝P₁+P₂+P₃+…+P_n

其中，P表示访问频率，P_i表示第i个非敏感三元组的访问频率。

进一步地，每个非敏感三元组的访问频率等于所述非敏感三元组的访问次数c除以整个非敏感三元组集合S中所有非敏感三元组的访问次数C，即P_i＝c/C。

本发明的上述技术方案的有益效果如下：

上述方案中，获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合；根据获取的非敏感三元组集合和敏感三元组集合，确定每个敏感三元组与非敏感三元组之间的推出关系；根据推出关系，确定要删除的非敏感三元组，组成一个要删除的非敏感三元组集合T，T有多种组合方式；对每一种T集合计算语义值总和；选择语义值总和最小的T集合，作为目标T集合删除，这样，能够最大限度地减少了用户信息量的丢失，从而实现用户所访问信息损失量最小的目的。

附图说明

图1为本发明实施例提供的基于RDF数据仓库隐私保护的推理控制方法的流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的根据已有的RDF数据推断出未有的RDF数据，易造成用户隐私泄露的问题，提供一种基于RDF数据仓库隐私保护的推理控制方法。

如图1所示，本发明实施例提供的基于RDF数据仓库隐私保护的推理控制方法，包括：

S101，获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合；

S102，根据获取的非敏感三元组集合和敏感三元组集合，确定每个敏感三元组与非敏感三元组之间的推出关系；

S103，根据推出关系，确定要删除的非敏感三元组，组成一个要删除的非敏感三元组集合T，T有多种组合方式；

S104，对每一种T集合计算语义值总和；

S105，选择语义值总和最小的T集合，作为目标T集合删除。

本发明实施例所述的基于RDF数据仓库隐私保护的推理控制方法，获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合；根据获取的非敏感三元组集合和敏感三元组集合，确定每个敏感三元组与非敏感三元组之间的推出关系；根据推出关系，确定要删除的非敏感三元组，组成一个要删除的非敏感三元组集合T，T有多种组合方式；对每一种T集合计算语义值总和；选择语义值总和最小的T集合，作为目标T集合删除，这样，能够最大限度地减少了用户信息量的丢失，从而实现用户所访问信息损失量最小的目的。

在RDF数据仓库中，敏感三元组可以通过蕴涵规则被非敏感三元组推理得出，由此，本发明实施例所述的基于RDF数据仓库隐私保护的推理控制方法是以隐私保护为目的，来阻止用户通过推理得到敏感信息，该方法是删除部分非敏感三元组来实现推理控制。

在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中，进一步地，所述根据获取的非敏感三元组集合和敏感三元组集合，确定每个敏感三元组与非敏感三元组之间的推出关系包括：

其中，所述前向链消解闭包算法满足S_n表示敏感三元组集合，S_n＝{s₁,s₂,s₃,…,s_n}，s_i表示第i个敏感三元组，T表示要删除的非敏感三元组集合。

根据权利要求1所描述的推理控制算法实现如下：

本实施例中，输入包括：RDF数据仓库中的非敏感三元组集合S和敏感三元组集合S_n；

输出包括：要删除的非敏感三元组集合T，其中，T为非敏感三元组集合S的一个子集T，T满足：

本实施例中，可以利用前向链消解闭包算法求出S的闭包S^*，S^*指的是新推理得出的三元组集合与S的并集。在确定S^*的过程中可得到并记录每个敏感三元组与非敏感三元组之间的推出关系。

在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中，进一步地，敏感三元组与非敏感三元组之间的推出关系表示为：

本实施例所述的推理控制方法，需要删除每一个中任一个非敏感三元组t_q，其中，q＝1,2,3,…,m，来使得不能推理出s_i，从每一个中任意选取一个非敏感三元组组成一个非敏感三元组集合T，T有多种组成方式，那么将会有num(s₁)*num(s₂)*…*num(s_n)种可能的T集合，其中，num(s_i)表示能够推理出敏感三元组s_i的非敏感三元组集合的个数。

本实施例中，为了充分考虑三元组的语义，引进了语义值的概念。本实施例所述的语义值与度的概念相关联，先引入了三元组度的概念：RDF有向图中，指向节点(实体)的边的条数就是该节点(实体)的入度，从该节点(实体)出去的有向边的条数就是该节点(实体)的出度。

本实施例中，语义值定义卫：主语是实例的三元组的语义值是1，主语是类的三元组的语义值大小根据主语的入度来计算。语义值的大小决定了三元组所表示的信息的语义的重要程度。

在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中，进一步地，所述选择语义值总和最小的T集合，作为目标T集合删除包括：

本实施例中，对每一种可能的T集合计算语义值总和，若语义值总和最小的集合只有一个，那么此T集合就是要输出的集合，目标T集合为最终要得到的将要删除的非敏感三元组集合。

在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中，进一步地，所述选择语义值总和最小的T集合，作为目标T集合删除还包括：

选择访问频率最小的T集合，作为目标T集合删除。

本实施例中，如果语义值总和最小的T集合不止一个，那么对这几个语义值最小的T集合分别进行访问频率计算。

本实施例中，对于语义值总和相同的每个T集合，分别求出每个T集合的访问频率，选择访问频率最小的T集合，作为目标T集合输出，目标T集合为最终要得到的将要删除的非敏感三元组集合。

在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中，进一步地，访问频率计算公式表示为：

P＝P₁+P₂+P₃+…+P_n

在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中，进一步地，每个非敏感三元组的访问频率等于所述非敏感三元组的访问次数c除以整个非敏感三元组集合S中所有非敏感三元组的访问次数C，即P_i＝c/C。

综上，本发明实施例的目的在于提供一种基于RDF数据仓库隐私保护的推理控制方法，该方法适用于具有较高安全和隐私要求的数据集，该方法能够保证在保护信息隐私的前提下，使得用户所访问的信息量损失最少。由于在RDF数据仓库中，可以通过推理机制，从已知RDF非敏感三元组数据推出RDF敏感三元组数据，因此，需要对能推出敏感三元组的RDF非敏感三元组进行删除，以达到隐私保护的目的。基于以上目的，本发明实施例所述的基于RDF数据仓库隐私保护的推理控制方法，引入了每个敏感三元组与非敏感三元组之间的推出关系，并且充分考虑了要删除的三元组的语义重要程度，由此创新地提出了三元组语义值的概念，根据语义值的大小，可以确定需要删除的三元组，如果需要删除的三元组的语义值相同，可以继续对需要删除的三元组，根据访问频率的大小来进行删除。这样就综合考虑语义值与访问频率两个衡量因素来确定最终需要删除的三元组。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于RDF数据仓库隐私保护的推理控制方法，其特征在于，包括：

获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合；

根据推出关系，从每种推出关系中任意取出一个非敏感三元组，组成一个要删除的非敏感三元组集合T，T有多种组成方式；

对每一种T集合计算语义值总和；

选择语义值总和最小的T集合，作为目标T集合删除。

2.根据权利要求1所述的基于RDF数据仓库隐私保护的推理控制方法，其特征在于，所述根据获取的非敏感三元组集合和敏感三元组集合，确定每个敏感三元组与非敏感三元组之间的推出关系，包括：

3.根据权利要求2所述的基于RDF数据仓库隐私保护的推理控制方法，其特征在于，敏感三元组与非敏感三元组之间的推出关系表示为：

4.根据权利要求3所述的基于RDF数据仓库隐私保护的推理控制方法，其特征在于，所述根据推出关系，确定要删除的非敏感三元组，组成一个要删除的非敏感三元组集合T，T有多种组成方式，包括：

5.根据权利要求4所述的基于RDF数据仓库隐私保护的推理控制方法，其特征在于，有num(s₁)*num(s₂)*…*num(s_n)种T集合，其中，num(s_i)表示能够推理出敏感三元组s_i的非敏感三元组集合的个数。

6.根据权利要求1所述的基于RDF数据仓库隐私保护的推理控制方法，其特征在于，主语是实例的三元组的语义值是1；

主语是类的三元组的语义值大小根据主语的入度来计算。

7.根据权利要求1所述的基于RDF数据仓库隐私保护的推理控制方法，其特征在于，所述选择语义值总和最小的T集合，作为目标T集合删除包括：

8.根据权利要求7所述的基于RDF数据仓库隐私保护的推理控制方法，其特征在于，所述选择语义值总和最小的T集合，作为目标T集合删除还包括：

选择访问频率最小的T集合，作为目标T集合删除。

9.根据权利要求8所述的基于RDF数据仓库隐私保护的推理控制方法，其特征在于，访问频率计算公式表示为：

P＝P₁+P₂+P₃+…+P_n

10.根据权利要求9所述的基于RDF数据仓库隐私保护的推理控制方法，其特征在于，每个非敏感三元组的访问频率等于所述非敏感三元组的访问次数c除以整个非敏感三元组集合S中所有非敏感三元组的访问次数C，即P_i＝c/C。