CN108573167A - 一种基于rdf数据仓库隐私保护的推理控制方法 - Google Patents
一种基于rdf数据仓库隐私保护的推理控制方法 Download PDFInfo
- Publication number
- CN108573167A CN108573167A CN201810287665.3A CN201810287665A CN108573167A CN 108573167 A CN108573167 A CN 108573167A CN 201810287665 A CN201810287665 A CN 201810287665A CN 108573167 A CN108573167 A CN 108573167A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- triple
- data warehouse
- rdf data
- control method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012217 deletion Methods 0.000 claims description 13
- 230000037430 deletion Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于RDF数据仓库隐私保护的推理控制方法,能够最大限度地减少用户信息量的丢失。所述方法包括:获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;根据推出关系,从每种推出关系中任意取出一个非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组成方式;对每一种T集合计算语义值总和;选择语义值总和最小的T集合,作为目标T集合删除。本发明涉及语义网的数据安全技术领域。
Description
技术领域
本发明涉及语义网的数据安全技术领域,特别是指一种基于RDF数据仓库隐私保护的推理控制方法。
背景技术
近年来,随着语义网技术的飞速发展,存储和计算的需求日益增大,资源描述框架(Resource Description Framework,RDF)作为语义网的核心技术之一,RDF数据仓库的推理控制研究正在逐渐成为一个新的研究热点。
RDF是语义网中知识表示的标准模型,通常用三元组(主语,谓语,宾语)来表示。RDF也是一种图数据模型,三元组的主语和宾语在图模型中是节点,也被称为实体,谓语在图模型中是边。
RDF数据仓库是用来存储、查询、推理RDF数据的语义仓库,在RDF数据仓库中可以进行推理,例如,可以根据已有的RDF数据推断出未有的RDF数据(即:敏感三元组可以通过蕴涵规则被非敏感三元组推理得出),容易造成用户隐私的泄露。
发明内容
本发明要解决的技术问题是提供一种基于RDF数据仓库隐私保护的推理控制方法,以解决现有技术所存在的根据已有的RDF数据推断出未有的RDF数据,易造成用户隐私泄露的问题。
为解决上述技术问题,本发明实施例提供一种基于RDF数据仓库隐私保护的推理控制方法,包括:
获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;
根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;
根据推出关系,确定要删除的非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组成方式;
对每一种T集合计算语义值总和;
选择语义值总和最小的T集合,作为目标T集合删除。
进一步地,所述根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系包括:
利用前向链消解闭包算法,确定非敏感三元组集合S的闭包S*,在确定S*的过程中得到每个敏感三元组与非敏感三元组之间的推出关系;
其中,T满足Sn表示敏感三元组集合,Sn={s1,s2,s3,…,sn},si表示第i个敏感三元组,T表示要删除的非敏感三元组集合。
进一步地,敏感三元组与非敏感三元组之间的推出关系表示为:
其中,表示敏感三元组si可由推理得出;表示能够推理得出敏感三元组si的第j个非敏感三元组集合,tq表示非敏感三元组,q=1,2,3,…,m;∪表示si可由中的任意一个非敏感三元组集合推理得出。
进一步地,所述根据推出关系,确定要删除的非敏感三元组,组成1个或多个要删除的非敏感三元组集合T包括:
根据推出关系,确定要删除的每一个中的非敏感三元组tq,使得不能推理出si;
从每一个中任意选取一个非敏感三元组tq,组成一个要删除的非敏感三元组集合T,T有多种组成方式。
进一步地,有num(s1)*num(s2)*…*num(sn)种T集合,其中,num(si)表示能够推理出敏感三元组si的非敏感三元组集合的个数。
进一步地,主语是实例的三元组的语义值是1;
主语是类的三元组的语义值大小根据主语的入度来计算。
进一步地,所述选择语义值总和最小的T集合,作为目标T集合删除包括:
若语义值总和最小的T集合只有一个,则所述T集合为目标T集合并删除。
进一步地,所述选择语义值总和最小的T集合,作为目标T集合删除还包括:
若语义值总和最小的T集合大于一个,则对语义值最小的多个T集合分别进行访问频率计算;
选择访问频率最小的T集合,作为目标T集合删除。
进一步地,访问频率计算公式表示为:
P=P1+P2+P3+…+Pn
其中,P表示访问频率,Pi表示第i个非敏感三元组的访问频率。
进一步地,每个非敏感三元组的访问频率等于所述非敏感三元组的访问次数c除以整个非敏感三元组集合S中所有非敏感三元组的访问次数C,即Pi=c/C。
本发明的上述技术方案的有益效果如下:
上述方案中,获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;根据推出关系,确定要删除的非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组合方式;对每一种T集合计算语义值总和;选择语义值总和最小的T集合,作为目标T集合删除,这样,能够最大限度地减少了用户信息量的丢失,从而实现用户所访问信息损失量最小的目的。
附图说明
图1为本发明实施例提供的基于RDF数据仓库隐私保护的推理控制方法的流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的根据已有的RDF数据推断出未有的RDF数据,易造成用户隐私泄露的问题,提供一种基于RDF数据仓库隐私保护的推理控制方法。
如图1所示,本发明实施例提供的基于RDF数据仓库隐私保护的推理控制方法,包括:
S101,获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;
S102,根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;
S103,根据推出关系,确定要删除的非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组合方式;
S104,对每一种T集合计算语义值总和;
S105,选择语义值总和最小的T集合,作为目标T集合删除。
本发明实施例所述的基于RDF数据仓库隐私保护的推理控制方法,获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;根据推出关系,确定要删除的非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组合方式;对每一种T集合计算语义值总和;选择语义值总和最小的T集合,作为目标T集合删除,这样,能够最大限度地减少了用户信息量的丢失,从而实现用户所访问信息损失量最小的目的。
在RDF数据仓库中,敏感三元组可以通过蕴涵规则被非敏感三元组推理得出,由此,本发明实施例所述的基于RDF数据仓库隐私保护的推理控制方法是以隐私保护为目的,来阻止用户通过推理得到敏感信息,该方法是删除部分非敏感三元组来实现推理控制。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,所述根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系包括:
利用前向链消解闭包算法,确定非敏感三元组集合S的闭包S*,在确定S*的过程中得到每个敏感三元组与非敏感三元组之间的推出关系;
其中,所述前向链消解闭包算法满足Sn表示敏感三元组集合,Sn={s1,s2,s3,…,sn},si表示第i个敏感三元组,T表示要删除的非敏感三元组集合。
根据权利要求1所描述的推理控制算法实现如下:
本实施例中,输入包括:RDF数据仓库中的非敏感三元组集合S和敏感三元组集合Sn;
输出包括:要删除的非敏感三元组集合T,其中,T为非敏感三元组集合S的一个子集T,T满足:
本实施例中,可以利用前向链消解闭包算法求出S的闭包S*,S*指的是新推理得出的三元组集合与S的并集。在确定S*的过程中可得到并记录每个敏感三元组与非敏感三元组之间的推出关系。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,敏感三元组与非敏感三元组之间的推出关系表示为:
其中,表示敏感三元组si可由推理得出;表示能够推理得出敏感三元组si的第j个非敏感三元组集合,tq表示非敏感三元组,q=1,2,3,…,m;∪表示si可由中的任意一个非敏感三元组集合推理得出。
本实施例所述的推理控制方法,需要删除每一个中任一个非敏感三元组tq,其中,q=1,2,3,…,m,来使得不能推理出si,从每一个中任意选取一个非敏感三元组组成一个非敏感三元组集合T,T有多种组成方式,那么将会有num(s1)*num(s2)*…*num(sn)种可能的T集合,其中,num(si)表示能够推理出敏感三元组si的非敏感三元组集合的个数。
本实施例中,为了充分考虑三元组的语义,引进了语义值的概念。本实施例所述的语义值与度的概念相关联,先引入了三元组度的概念:RDF有向图中,指向节点(实体)的边的条数就是该节点(实体)的入度,从该节点(实体)出去的有向边的条数就是该节点(实体)的出度。
本实施例中,语义值定义卫:主语是实例的三元组的语义值是1,主语是类的三元组的语义值大小根据主语的入度来计算。语义值的大小决定了三元组所表示的信息的语义的重要程度。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,所述选择语义值总和最小的T集合,作为目标T集合删除包括:
若语义值总和最小的T集合只有一个,则所述T集合为目标T集合并删除。
本实施例中,对每一种可能的T集合计算语义值总和,若语义值总和最小的集合只有一个,那么此T集合就是要输出的集合,目标T集合为最终要得到的将要删除的非敏感三元组集合。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,所述选择语义值总和最小的T集合,作为目标T集合删除还包括:
若语义值总和最小的T集合大于一个,则对语义值最小的多个T集合分别进行访问频率计算;
选择访问频率最小的T集合,作为目标T集合删除。
本实施例中,如果语义值总和最小的T集合不止一个,那么对这几个语义值最小的T集合分别进行访问频率计算。
本实施例中,对于语义值总和相同的每个T集合,分别求出每个T集合的访问频率,选择访问频率最小的T集合,作为目标T集合输出,目标T集合为最终要得到的将要删除的非敏感三元组集合。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,访问频率计算公式表示为:
P=P1+P2+P3+…+Pn
其中,P表示访问频率,Pi表示第i个非敏感三元组的访问频率。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,每个非敏感三元组的访问频率等于所述非敏感三元组的访问次数c除以整个非敏感三元组集合S中所有非敏感三元组的访问次数C,即Pi=c/C。
综上,本发明实施例的目的在于提供一种基于RDF数据仓库隐私保护的推理控制方法,该方法适用于具有较高安全和隐私要求的数据集,该方法能够保证在保护信息隐私的前提下,使得用户所访问的信息量损失最少。由于在RDF数据仓库中,可以通过推理机制,从已知RDF非敏感三元组数据推出RDF敏感三元组数据,因此,需要对能推出敏感三元组的RDF非敏感三元组进行删除,以达到隐私保护的目的。基于以上目的,本发明实施例所述的基于RDF数据仓库隐私保护的推理控制方法,引入了每个敏感三元组与非敏感三元组之间的推出关系,并且充分考虑了要删除的三元组的语义重要程度,由此创新地提出了三元组语义值的概念,根据语义值的大小,可以确定需要删除的三元组,如果需要删除的三元组的语义值相同,可以继续对需要删除的三元组,根据访问频率的大小来进行删除。这样就综合考虑语义值与访问频率两个衡量因素来确定最终需要删除的三元组。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于RDF数据仓库隐私保护的推理控制方法,其特征在于,包括:
获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;
根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;
根据推出关系,从每种推出关系中任意取出一个非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组成方式;
对每一种T集合计算语义值总和;
选择语义值总和最小的T集合,作为目标T集合删除。
2.根据权利要求1所述的基于RDF数据仓库隐私保护的推理控制方法,其特征在于,所述根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系,包括:
利用前向链消解闭包算法,确定非敏感三元组集合S的闭包S*,在确定S*的过程中得到每个敏感三元组与非敏感三元组之间的推出关系;
其中,T满足Sn表示敏感三元组集合,Sn={s1,s2,s3,…,sn},si表示第i个敏感三元组,T表示要删除的非敏感三元组集合。
3.根据权利要求2所述的基于RDF数据仓库隐私保护的推理控制方法,其特征在于,敏感三元组与非敏感三元组之间的推出关系表示为:
其中,表示敏感三元组si可由推理得出;表示能够推理得出敏感三元组si的第j个非敏感三元组集合,tq表示非敏感三元组,q=1,2,3,…,m;∪表示si可由中的任意一个非敏感三元组集合推理得出。
4.根据权利要求3所述的基于RDF数据仓库隐私保护的推理控制方法,其特征在于,所述根据推出关系,确定要删除的非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组成方式,包括:
根据推出关系,确定要删除的每一个中的非敏感三元组tq,使得不能推理出si;
从每一个中任意选取一个非敏感三元组tq,组成一个要删除的非敏感三元组集合T,T有多种组成方式。
5.根据权利要求4所述的基于RDF数据仓库隐私保护的推理控制方法,其特征在于,有num(s1)*num(s2)*…*num(sn)种T集合,其中,num(si)表示能够推理出敏感三元组si的非敏感三元组集合的个数。
6.根据权利要求1所述的基于RDF数据仓库隐私保护的推理控制方法,其特征在于,主语是实例的三元组的语义值是1;
主语是类的三元组的语义值大小根据主语的入度来计算。
7.根据权利要求1所述的基于RDF数据仓库隐私保护的推理控制方法,其特征在于,所述选择语义值总和最小的T集合,作为目标T集合删除包括:
若语义值总和最小的T集合只有一个,则所述T集合为目标T集合并删除。
8.根据权利要求7所述的基于RDF数据仓库隐私保护的推理控制方法,其特征在于,所述选择语义值总和最小的T集合,作为目标T集合删除还包括:
若语义值总和最小的T集合大于一个,则对语义值最小的多个T集合分别进行访问频率计算;
选择访问频率最小的T集合,作为目标T集合删除。
9.根据权利要求8所述的基于RDF数据仓库隐私保护的推理控制方法,其特征在于,访问频率计算公式表示为:
P=P1+P2+P3+…+Pn
其中,P表示访问频率,Pi表示第i个非敏感三元组的访问频率。
10.根据权利要求9所述的基于RDF数据仓库隐私保护的推理控制方法,其特征在于,每个非敏感三元组的访问频率等于所述非敏感三元组的访问次数c除以整个非敏感三元组集合S中所有非敏感三元组的访问次数C,即Pi=c/C。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810287665.3A CN108573167B (zh) | 2018-04-03 | 2018-04-03 | 一种基于rdf数据仓库隐私保护的推理控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810287665.3A CN108573167B (zh) | 2018-04-03 | 2018-04-03 | 一种基于rdf数据仓库隐私保护的推理控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108573167A true CN108573167A (zh) | 2018-09-25 |
CN108573167B CN108573167B (zh) | 2020-12-29 |
Family
ID=63574082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810287665.3A Active CN108573167B (zh) | 2018-04-03 | 2018-04-03 | 一种基于rdf数据仓库隐私保护的推理控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108573167B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169966A1 (en) * | 2008-12-30 | 2010-07-01 | Oracle International Corporation | Resource description framework security |
CN101853251A (zh) * | 2009-03-30 | 2010-10-06 | 华为技术有限公司 | 一种保护敏感资源描述框架数据的方法、装置及系统 |
CN102148829A (zh) * | 2011-03-29 | 2011-08-10 | 苏州市职业大学 | 一种网格环境下实体节点可信度的计算方法 |
CN104581633A (zh) * | 2014-12-31 | 2015-04-29 | 东北大学 | 支持隐私保护的障碍空间内的区域最近邻查询系统及方法 |
-
2018
- 2018-04-03 CN CN201810287665.3A patent/CN108573167B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169966A1 (en) * | 2008-12-30 | 2010-07-01 | Oracle International Corporation | Resource description framework security |
CN101853251A (zh) * | 2009-03-30 | 2010-10-06 | 华为技术有限公司 | 一种保护敏感资源描述框架数据的方法、装置及系统 |
CN102148829A (zh) * | 2011-03-29 | 2011-08-10 | 苏州市职业大学 | 一种网格环境下实体节点可信度的计算方法 |
CN104581633A (zh) * | 2014-12-31 | 2015-04-29 | 东北大学 | 支持隐私保护的障碍空间内的区域最近邻查询系统及方法 |
Non-Patent Citations (1)
Title |
---|
王进鹏等: "RDF(S)三元组的推理控制算法", 《计算机工程》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108573167B (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Top-k frequent itemsets via differentially private fp-trees | |
Zhu et al. | K-core minimization: An edge manipulation approach | |
US9514161B2 (en) | Guaranteeing anonymity of linked data graphs | |
US20230084325A1 (en) | Random greedy algorithm-based horizontal federated gradient boosted tree optimization method | |
Lin et al. | Policy decomposition for collaborative access control | |
CN103631843B (zh) | 关系数据库中时间唯一索引中的间隙检测的方法和系统 | |
Wang et al. | Generalized bucketization scheme for flexible privacy settings | |
John et al. | Decision support for sharing data using differential privacy | |
Alfano et al. | Computing extensions of dynamic abstract argumentation frameworks with second-order attacks | |
Wang et al. | Boosting the accuracy of differentially private in weighted social networks | |
CN112822004B (zh) | 一种基于信念网络的靶向型隐私保护数据发布方法 | |
Chatterjee et al. | On the computational complexities of three problems related to a privacy measure for large networks under active attack | |
Carvalho et al. | Differentially private top-k selection via stability on unknown domain | |
CN108573167B (zh) | 一种基于rdf数据仓库隐私保护的推理控制方法 | |
CN109032499A (zh) | 一种分布式数据存储的数据存取方法、信息数据处理终端 | |
Liu et al. | Differential privacy location data release based on quadtree in mobile edge computing | |
Yuan et al. | An improved privacy protection method based on k-degree anonymity in social network | |
CN112380267B (zh) | 一种基于隐私图的社区发现方法 | |
Ning et al. | Dp-agm: a differential privacy preserving method for binary relationship in mobile networks | |
Ouyang et al. | Set-valued data collection with local differential privacy based on category hierarchy | |
Baktha et al. | Alpha Anonymization in Social Networks using the Lossy-Join Approach. | |
Canbay et al. | A Mondrian-based Utility Optimization Model for Anonymization | |
Shi et al. | XGBoost Algorithm under Differential Privacy Protection | |
Pagadala et al. | Achieving mobile-health privacy using attribute-based access control | |
CN113722752B (zh) | 基于lfp树与代理向量的轨迹隐私数据发布方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |