CN108573167B - 一种基于rdf数据仓库隐私保护的推理控制方法 - Google Patents

一种基于rdf数据仓库隐私保护的推理控制方法 Download PDF

Info

Publication number
CN108573167B
CN108573167B CN201810287665.3A CN201810287665A CN108573167B CN 108573167 B CN108573167 B CN 108573167B CN 201810287665 A CN201810287665 A CN 201810287665A CN 108573167 B CN108573167 B CN 108573167B
Authority
CN
China
Prior art keywords
sensitive
triple
sensitive triple
deleted
data warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810287665.3A
Other languages
English (en)
Other versions
CN108573167A (zh
Inventor
宁焕生
齐玉营
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201810287665.3A priority Critical patent/CN108573167B/zh
Publication of CN108573167A publication Critical patent/CN108573167A/zh
Application granted granted Critical
Publication of CN108573167B publication Critical patent/CN108573167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供一种基于RDF数据仓库隐私保护的推理控制方法,能够最大限度地减少用户信息量的丢失。所述方法包括:获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;根据推出关系,从每种推出关系中任意取出一个非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组成方式;对每一种T集合计算语义值总和;选择语义值总和最小的T集合,作为目标T集合删除。本发明涉及语义网的数据安全技术领域。

Description

一种基于RDF数据仓库隐私保护的推理控制方法
技术领域
本发明涉及语义网的数据安全技术领域,特别是指一种基于RDF数据仓库隐私保护的推理控制方法。
背景技术
近年来,随着语义网技术的飞速发展,存储和计算的需求日益增大,资源描述框架(Resource Description Framework,RDF)作为语义网的核心技术之一,RDF数据仓库的推理控制研究正在逐渐成为一个新的研究热点。
RDF是语义网中知识表示的标准模型,通常用三元组(主语,谓语,宾语)来表示。RDF也是一种图数据模型,三元组的主语和宾语在图模型中是节点,也被称为实体,谓语在图模型中是边。
RDF数据仓库是用来存储、查询、推理RDF数据的语义仓库,在RDF数据仓库中可以进行推理,例如,可以根据已有的RDF数据推断出未有的RDF数据(即:敏感三元组可以通过蕴涵规则被非敏感三元组推理得出),容易造成用户隐私的泄露。
发明内容
本发明要解决的技术问题是提供一种基于RDF数据仓库隐私保护的推理控制方法,以解决现有技术所存在的根据已有的RDF数据推断出未有的RDF数据,易造成用户隐私泄露的问题。
为解决上述技术问题,本发明实施例提供一种基于RDF数据仓库隐私保护的推理控制方法,包括:
获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;
根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;
根据推出关系,确定要删除的非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组成方式;
对每一种T集合计算语义值总和;
选择语义值总和最小的T集合,作为目标T集合删除。
进一步地,所述根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系包括:
利用前向链消解闭包算法,确定非敏感三元组集合S的闭包S*,在确定S*的过程中得到每个敏感三元组与非敏感三元组之间的推出关系;
其中,T满足
Figure GDA0002775739750000021
Sn表示敏感三元组集合,Sn={s1,s2,s3,…,sn},si表示第i个敏感三元组,T表示要删除的非敏感三元组集合。
进一步地,敏感三元组与非敏感三元组之间的推出关系表示为:
Figure GDA0002775739750000022
其中,
Figure GDA0002775739750000023
表示敏感三元组si可由
Figure GDA0002775739750000024
推理得出;
Figure GDA0002775739750000025
表示能够推理得出敏感三元组si的第j个非敏感三元组集合,
Figure GDA0002775739750000026
tq表示非敏感三元组,q=1,2,3,…,m;∪表示si可由
Figure GDA0002775739750000027
中的任意一个非敏感三元组集合
Figure GDA0002775739750000028
推理得出。
进一步地,所述根据推出关系,确定要删除的非敏感三元组,组成1个或多个要删除的非敏感三元组集合T包括:
根据推出关系,确定要删除的每一个
Figure GDA0002775739750000029
中的非敏感三元组tq,使得
Figure GDA00027757397500000210
不能推理出si
从每一个
Figure GDA00027757397500000211
中任意选取一个非敏感三元组tq,组成一个要删除的非敏感三元组集合T,T有多种组成方式。
进一步地,有num(s1)*num(s2)*…*num(sn)种T集合,其中,num(si)表示能够推理出敏感三元组si的非敏感三元组集合的个数。
进一步地,主语是实例的三元组的语义值是1;
主语是类的三元组的语义值大小根据主语的入度来计算。
进一步地,所述选择语义值总和最小的T集合,作为目标T集合删除包括:
若语义值总和最小的T集合只有一个,则所述T集合为目标T集合并删除。
进一步地,所述选择语义值总和最小的T集合,作为目标T集合删除还包括:
若语义值总和最小的T集合大于一个,则对语义值最小的多个T集合分别进行访问频率计算;
选择访问频率最小的T集合,作为目标T集合删除。
进一步地,访问频率计算公式表示为:
P=P1+P2+P3+…+Pn
其中,P表示访问频率,Pi表示第i个非敏感三元组的访问频率。
进一步地,每个非敏感三元组的访问频率等于所述非敏感三元组的访问次数c除以整个非敏感三元组集合S中所有非敏感三元组的访问次数C,即Pi=c/C。
本发明的上述技术方案的有益效果如下:
上述方案中,获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;根据推出关系,确定要删除的非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组合方式;对每一种T集合计算语义值总和;选择语义值总和最小的T集合,作为目标T集合删除,这样,能够最大限度地减少了用户信息量的丢失,从而实现用户所访问信息损失量最小的目的。
附图说明
图1为本发明实施例提供的基于RDF数据仓库隐私保护的推理控制方法的流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的根据已有的RDF数据推断出未有的RDF数据,易造成用户隐私泄露的问题,提供一种基于RDF数据仓库隐私保护的推理控制方法。
如图1所示,本发明实施例提供的基于RDF数据仓库隐私保护的推理控制方法,包括:
S101,获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;
S102,根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;
S103,根据推出关系,确定要删除的非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组合方式;
S104,对每一种T集合计算语义值总和;
S105,选择语义值总和最小的T集合,作为目标T集合删除。
本发明实施例所述的基于RDF数据仓库隐私保护的推理控制方法,获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;根据推出关系,确定要删除的非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组合方式;对每一种T集合计算语义值总和;选择语义值总和最小的T集合,作为目标T集合删除,这样,能够最大限度地减少了用户信息量的丢失,从而实现用户所访问信息损失量最小的目的。
在RDF数据仓库中,敏感三元组可以通过蕴涵规则被非敏感三元组推理得出,由此,本发明实施例所述的基于RDF数据仓库隐私保护的推理控制方法是以隐私保护为目的,来阻止用户通过推理得到敏感信息,该方法是删除部分非敏感三元组来实现推理控制。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,所述根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系包括:
利用前向链消解闭包算法,确定非敏感三元组集合S的闭包S*,在确定S*的过程中得到每个敏感三元组与非敏感三元组之间的推出关系;
其中,所述前向链消解闭包算法满足
Figure GDA0002775739750000041
Sn表示敏感三元组集合,Sn={s1,s2,s3,…,sn},si表示第i个敏感三元组,T表示要删除的非敏感三元组集合。
根据步骤S101-S105所描述的推理控制算法实现如下:
本实施例中,输入包括:RDF数据仓库中的非敏感三元组集合S和敏感三元组集合Sn
输出包括:要删除的非敏感三元组集合T,其中,T为非敏感三元组集合S的一个子集T,T满足:
Figure GDA0002775739750000051
本实施例中,可以利用前向链消解闭包算法求出S的闭包S*,S*指的是新推理得出的三元组集合与S的并集。在确定S*的过程中可得到并记录每个敏感三元组与非敏感三元组之间的推出关系。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,敏感三元组与非敏感三元组之间的推出关系表示为:
Figure GDA0002775739750000052
其中,
Figure GDA0002775739750000053
表示敏感三元组si可由
Figure GDA0002775739750000054
推理得出;
Figure GDA0002775739750000055
表示能够推理得出敏感三元组si的第j个非敏感三元组集合,
Figure GDA0002775739750000056
tq表示非敏感三元组,q=1,2,3,…,m;∪表示si可由
Figure GDA0002775739750000057
中的任意一个非敏感三元组集合
Figure GDA0002775739750000058
推理得出。
本实施例所述的推理控制方法,需要删除每一个
Figure GDA0002775739750000059
中任一个非敏感三元组tq,其中,q=1,2,3,…,m,来使得
Figure GDA00027757397500000510
不能推理出si,从每一个
Figure GDA00027757397500000511
中任意选取一个非敏感三元组组成一个非敏感三元组集合T,T有多种组成方式,那么将会有num(s1)*num(s2)*…*num(sn)种可能的T集合,其中,num(si)表示能够推理出敏感三元组si的非敏感三元组集合的个数。
本实施例中,为了充分考虑三元组的语义,引进了语义值的概念。本实施例所述的语义值与度的概念相关联,先引入了三元组度的概念:RDF有向图中,指向节点(实体)的边的条数就是该节点(实体)的入度,从该节点(实体)出去的有向边的条数就是该节点(实体)的出度。
本实施例中,语义值定义为:主语是实例的三元组的语义值是1,主语是类的三元组的语义值大小根据主语的入度来计算。语义值的大小决定了三元组所表示的信息的语义的重要程度。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,所述选择语义值总和最小的T集合,作为目标T集合删除包括:
若语义值总和最小的T集合只有一个,则所述T集合为目标T集合并删除。
本实施例中,对每一种可能的T集合计算语义值总和,若语义值总和最小的集合只有一个,那么此T集合就是要输出的集合,目标T集合为最终要得到的将要删除的非敏感三元组集合。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,所述选择语义值总和最小的T集合,作为目标T集合删除还包括:
若语义值总和最小的T集合大于一个,则对语义值最小的多个T集合分别进行访问频率计算;
选择访问频率最小的T集合,作为目标T集合删除。
本实施例中,如果语义值总和最小的T集合不止一个,那么对这几个语义值最小的T集合分别进行访问频率计算。
本实施例中,对于语义值总和相同的每个T集合,分别求出每个T集合的访问频率,选择访问频率最小的T集合,作为目标T集合输出,目标T集合为最终要得到的将要删除的非敏感三元组集合。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,访问频率计算公式表示为:
P=P1+P2+P3+…+Pn
其中,P表示访问频率,Pi表示第i个非敏感三元组的访问频率。
在前述基于RDF数据仓库隐私保护的推理控制方法的具体实施方式中,进一步地,每个非敏感三元组的访问频率等于所述非敏感三元组的访问次数c除以整个非敏感三元组集合S中所有非敏感三元组的访问次数C,即Pi=c/C。
综上,本发明实施例的目的在于提供一种基于RDF数据仓库隐私保护的推理控制方法,该方法适用于具有较高安全和隐私要求的数据集,该方法能够保证在保护信息隐私的前提下,使得用户所访问的信息量损失最少。由于在RDF数据仓库中,可以通过推理机制,从已知RDF非敏感三元组数据推出RDF敏感三元组数据,因此,需要对能推出敏感三元组的RDF非敏感三元组进行删除,以达到隐私保护的目的。基于以上目的,本发明实施例所述的基于RDF数据仓库隐私保护的推理控制方法,引入了每个敏感三元组与非敏感三元组之间的推出关系,并且充分考虑了要删除的三元组的语义重要程度,由此创新地提出了三元组语义值的概念,根据语义值的大小,可以确定需要删除的三元组,如果需要删除的三元组的语义值相同,可以继续对需要删除的三元组,根据访问频率的大小来进行删除。这样就综合考虑语义值与访问频率两个衡量因素来确定最终需要删除的三元组。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于RDF数据仓库隐私保护的推理控制方法,其特征在于,包括:
获取RDF数据仓库中的非敏感三元组集合和敏感三元组集合;
根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系;
根据推出关系,从每种推出关系中任意取出一个非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组成方式;
对每一种T集合计算语义值总和;
选择语义值总和最小的T集合,作为目标T集合删除;
其中,所述选择语义值总和最小的T集合,作为目标T集合删除包括:
若语义值总和最小的T集合只有一个,则所述T集合为目标T集合并删除;
其中,所述选择语义值总和最小的T集合,作为目标T集合删除还包括:
若语义值总和最小的T集合大于一个,则对语义值最小的多个T集合分别进行访问频率计算;
选择访问频率最小的T集合,作为目标T集合删除;
其中,访问频率计算公式表示为:
P=P1+P2+P3+…+Pn
其中,P表示访问频率,Pi表示第i个非敏感三元组的访问频率;
其中,每个非敏感三元组的访问频率等于所述非敏感三元组的访问次数c除以整个非敏感三元组集合S中所有非敏感三元组的访问次数C,即Pi=c/C;
其中,所述根据获取的非敏感三元组集合和敏感三元组集合,确定每个敏感三元组与非敏感三元组之间的推出关系,包括:
利用前向链消解闭包算法,确定非敏感三元组集合S的闭包S*,在确定S*的过程中得到每个敏感三元组与非敏感三元组之间的推出关系;
其中,T满足
Figure FDA0002736335160000011
Sn表示敏感三元组集合,Sn={s1,s2,s3,…,sn},si表示第i个敏感三元组,T表示要删除的非敏感三元组集合;
其中,敏感三元组与非敏感三元组之间的推出关系表示为:
Figure FDA0002736335160000021
其中,
Figure FDA0002736335160000022
表示敏感三元组si可由
Figure FDA0002736335160000023
推理得出;
Figure FDA0002736335160000024
表示能够推理得出敏感三元组si的第j个非敏感三元组集合,
Figure FDA0002736335160000025
tq表示非敏感三元组,q=1,2,3,…,m;∪表示si可由
Figure FDA0002736335160000026
中的任意一个非敏感三元组集合
Figure FDA0002736335160000027
推理得出;
其中,主语是实例的三元组的语义值是1;
主语是类的三元组的语义值大小根据主语的入度来计算。
2.根据权利要求1所述的基于RDF数据仓库隐私保护的推理控制方法,其特征在于,所述根据推出关系,确定要删除的非敏感三元组,组成一个要删除的非敏感三元组集合T,T有多种组成方式,包括:
根据推出关系,确定要删除的每一个
Figure FDA0002736335160000028
中的非敏感三元组tq,使得
Figure FDA0002736335160000029
不能推理出si
从每一个
Figure FDA00027363351600000210
中任意选取一个非敏感三元组tq,组成一个要删除的非敏感三元组集合T,T有多种组成方式。
3.根据权利要求2所述的基于RDF数据仓库隐私保护的推理控制方法,其特征在于,有num(s1)*num(s2)*…*num(sn)种T集合,其中,num(si)表示能够推理出敏感三元组si的非敏感三元组集合的个数。
CN201810287665.3A 2018-04-03 2018-04-03 一种基于rdf数据仓库隐私保护的推理控制方法 Active CN108573167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810287665.3A CN108573167B (zh) 2018-04-03 2018-04-03 一种基于rdf数据仓库隐私保护的推理控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810287665.3A CN108573167B (zh) 2018-04-03 2018-04-03 一种基于rdf数据仓库隐私保护的推理控制方法

Publications (2)

Publication Number Publication Date
CN108573167A CN108573167A (zh) 2018-09-25
CN108573167B true CN108573167B (zh) 2020-12-29

Family

ID=63574082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810287665.3A Active CN108573167B (zh) 2018-04-03 2018-04-03 一种基于rdf数据仓库隐私保护的推理控制方法

Country Status (1)

Country Link
CN (1) CN108573167B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853251A (zh) * 2009-03-30 2010-10-06 华为技术有限公司 一种保护敏感资源描述框架数据的方法、装置及系统
CN102148829A (zh) * 2011-03-29 2011-08-10 苏州市职业大学 一种网格环境下实体节点可信度的计算方法
CN104581633A (zh) * 2014-12-31 2015-04-29 东北大学 支持隐私保护的障碍空间内的区域最近邻查询系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9244981B2 (en) * 2008-12-30 2016-01-26 Oracle International Corporation Resource description framework security

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853251A (zh) * 2009-03-30 2010-10-06 华为技术有限公司 一种保护敏感资源描述框架数据的方法、装置及系统
CN102148829A (zh) * 2011-03-29 2011-08-10 苏州市职业大学 一种网格环境下实体节点可信度的计算方法
CN104581633A (zh) * 2014-12-31 2015-04-29 东北大学 支持隐私保护的障碍空间内的区域最近邻查询系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RDF(S)三元组的推理控制算法;王进鹏等;《计算机工程》;20091005;第35卷(第19期);第17-19页 *

Also Published As

Publication number Publication date
CN108573167A (zh) 2018-09-25

Similar Documents

Publication Publication Date Title
Lee et al. Top-k frequent itemsets via differentially private fp-trees
US9514161B2 (en) Guaranteeing anonymity of linked data graphs
Zhu et al. K-core minimization: An edge manipulation approach
US11379598B2 (en) Knowledge graph access limitation by discovery restrictions
US20100319067A1 (en) Method and System for Managing Object Level Security Using an Object Definition Hierarchy
US20230084325A1 (en) Random greedy algorithm-based horizontal federated gradient boosted tree optimization method
Hachem et al. Policy-based access control in mobile social ecosystems
US11210410B2 (en) Serving data assets based on security policies by applying space-time optimized inline data transformations
Lin et al. Policy decomposition for collaborative access control
Wang et al. Generalized bucketization scheme for flexible privacy settings
US9058470B1 (en) Actual usage analysis for advanced privilege management
GB2459551A (en) Federated Configuration Management Database for reconciling attribute information
CN103631843B (zh) 关系数据库中时间唯一索引中的间隙检测的方法和系统
Wang et al. Boosting the accuracy of differentially private in weighted social networks
Chatterjee et al. On the computational complexities of three problems related to a privacy measure for large networks under active attack
CN112822004B (zh) 一种基于信念网络的靶向型隐私保护数据发布方法
CN108573167B (zh) 一种基于rdf数据仓库隐私保护的推理控制方法
Zhou et al. Hermes: a privacy-preserving approximate search framework for big data
CN112380267B (zh) 一种基于隐私图的社区发现方法
Yuan et al. An improved privacy protection method based on k-degree anonymity in social network
US11663159B2 (en) Deterministic enforcement in data virtualization systems
Pagadala et al. Achieving mobile-health privacy using attribute-based access control
CN113722752B (zh) 基于lfp树与代理向量的轨迹隐私数据发布方法、装置及系统
Madan A Literature Analysis on Privacy Preservation Techniques
Qiu et al. A survey on access control in the age of IoT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant