CN111191291A

CN111191291A - 一种基于攻击概率的数据库属性敏感度量化方法

Info

Publication number: CN111191291A
Application number: CN202010007499.4A
Authority: CN
Inventors: 李辉; 龚政; 赵柯纯
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-01-04
Filing date: 2020-01-04
Publication date: 2020-05-22
Anticipated expiration: 2040-01-04
Also published as: CN111191291B

Abstract

本发明公开了一种基于攻击概率的数据库属性敏感度量化方法，包括以下步骤：1)赋予数据库中各列，攻击者可能提前获取该列的概率；2)将数据库输入到数据库主键分析系统中，得数据库的所有主键和复合主键；3)根据步骤2)输出的结果对数据库中的各列进行整理，找到各列分别出现在哪些主键和复合主键中；4)计算数据库中各列被攻击成功的概率；5)根据步骤4)计算得到的数据库中各列被攻击成功的概率的大小对数据库中各列进行敏感度量化和排序，并输出敏感度量化和排序的结果，完成基于攻击概率的数据库属性敏感度量化，该方法能够将数据库中所有属性根据攻击者攻击成功的概率进行敏感度的量化及排序，且准确性较高。

Description

一种基于攻击概率的数据库属性敏感度量化方法

技术领域

本发明属于数据安全技术领域，涉及一种基于攻击概率的数据库属性敏感度量化方法。

背景技术

随着大数据时代的来临，各种类型的数据在人们的日常生活中扮演了越来越重要的角色。形形色色的数据服务在给人们带来了无数便捷的同时，也衍生出了一系列的安全问题。例如社交网络中的手机号，照片，工作单位，出生年月等个人信息，以及用户的操作日志，定位信息等实时信息，都将被服务提供方存储进数据库中，这些数据一旦遭到攻击，发生数据泄露，那么用户所有的隐私信息就可能流入不法分子手中，后果不堪设想。因此，社会安全大数据带来的管理风险日益突出，如果不能妥善解决将必然造成“大数据就是大风险”的可怕后果。

要保护数据安全，首要与核心的步骤就是分析数据，识别和提取出敏感信息。数据敏感度量化技术指的是将结构化数据库中的属性列的敏感程度转化为直观精确的数字，并将各个列划分为不同的敏感等级。其意义在于迅速准确地识别出数据中的敏感成分和非敏感成分，对同一个数据库中，不同敏感程度的数据采取不同的处理方式，在尽量保持原有数据特征的同时，避免攻击者窃取到敏感数据，造成信息泄露等严重后果。

目前，现有的数据敏感度量化技术大致有以下几种：

直接利用模板匹配判定数据库中数据的类型和敏感度，例如预先定义出如“身份证号”，“手机号”，“银行卡号”等固定格式的敏感信息模板，再用这些模板去匹配数据库中的每一个列，以此判断数据库中是否有定义过的敏感信息列。此方法的缺点在于敏感信息是无法定义完的，采用预定义的方式定会漏掉一些未经定义但是也高度敏感的属性。并且模板匹配对于数据格式的要求非常严苛，如果某些数据的格式和预先定义模板的格式略有差异便有无法成功匹配的风险。

统计每个列的元素重复率，来量化该列的敏感程度。即统计每一列中存在多少不重复的数据，以此来量化其敏感程度，数据重复率越小的列越敏感，重复率越大的列越不敏感。例如数据库的主键在每个元组上均不重复，因此其敏感度最高。这种技术的缺点在于，它只从单个列入手分析敏感度，忽略了列与列之间的相互关系，并且忽略了每一列的语义信息。

综上所述，现有的敏感度量化制度有着敏感信息定义不全，列与列之间关系考虑不周等各种问题，在面对不同种类，不同语义信息，不同应用场景的数据库时，无法准确，快速地识别敏感信息并划分敏感度。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种基于攻击概率的数据库属性敏感度量化方法，该方法能够将数据库中所有属性根据攻击者攻击成功的概率进行敏感度的量化及排序，且准确性较高。

为达到上述目的，本发明所述的基于攻击概率的数据库属性敏感度量化方法包括以下步骤：

1)赋予数据库中各列，攻击者可能提前获取该列的概率；

2)将数据库输入到数据库主键分析系统中，得数据库的所有主键和复合主键；

3)根据步骤2)输出的结果对数据库中的各列进行整理，找到各列分别出现在哪些主键和复合主键中；

4)根据步骤1)中赋予的数据库中各列的概率以及步骤3)中得到的数据库中各列在复合主键及主键中的出现情况，计算数据库中各列被攻击成功的概率；

5)根据步骤4)计算得到的数据库中各列被攻击成功的概率的大小对数据库中各列进行敏感度量化及排序，输出敏感度量化及排序的结果，完成基于攻击概率的数据库属性敏感度量化。

步骤3)中，将所有的属性列分为三类，第一类作为数据库主键的主键列；第二类为至少在某个复合主键中出现过的复合主键列；第三类为在主键和复合主键中均未出现过的列。

步骤4)中，计算数据库中各列被攻击成功的概率的具体过程为：

设数据库中一共有n个列，设每一列提前被攻击者获取的概率为P(1),P(2),P(3),...P(n)，对于列x，设其被攻击者提前获取的概率为P(x)；

对于第一类的列，其被攻击成功的概率P_att(x)＝P(x)；

对于第二类的列，其被攻击成功的概率P_att(x)为：

P_att(x)＝P(x)×{1-[1-P_x(UCC1)]×[1-P_x(UCC2)]×...×[1-P_x(UCCn)]}

其中，UCC1，UCC2，...，UCCn表示由列x组成的n个复合主键；

P_x(UCC1),P_x(UCC2),...,P_x(UCCn)表示在列x已经被攻击者提前获取的前提下，攻击者分别通过UCC1，UCC2，...，UCCn攻击成功的概率，设列x组成的某个复合主键由k个不同的列组成，分别为j₁,j₂,...,j_k，则攻击者通过该复合主键攻击成功的概率P_x(UCCj)为：

P_x(UCCj)＝P(j₁)×P(j₂)×...×P(j_k-1)

即除列x以外其他组成该复合主键的列的提前被获取概率P之积；

对于第三类的列，其被攻击成功的概率P_att(x)＝0。

本发明具有以下有益效果：

本发明所述的基于攻击概率的数据库属性敏感度量化方法在具体操作时，从攻击者的角度入手，先预先设定各列被攻击者获取的概率，再将数据库输入到数据库主键分析系统中，得数据库的所有主键和复合主键，并找到各列分别出现在哪些主键和复合主键中，并以此计算数据库中各列被攻击成功的概率，该概率作为敏感度排列的依据，既符合客观攻击模型，又使得结果真实可信，在保留数据可用性的前提下，快速精确地得到量化结果，为数据管理者提供了基于敏感度方面的参考，为进一步的数据脱敏以及数据发布工作打下了良好的基础。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

本发明所述的基于攻击概率的数据库属性敏感度量化方法包括以下步骤：

1)赋予数据库中各列，攻击者可能提前获取该列的概率；

具体的，步骤1)中赋予的攻击者可能提前获取该列的概率为估计值，由数据库管理者或风险评估专家，基于数据库中某些属性的已公开发布情况以及现有经验给出。例如，在某个人信息类数据库中，姓名信息已经公开，因此姓名属性已被攻击者获取的概率即为1，而公司地址属性曾经在某个相关数据库中公开发布过，根据经验，攻击者获取通过相关数据库该属性的概率为0.8。而其他属性从未公开发布，此数据库发生泄露的风险概率为0.01，因此其他属性被攻击者获取的概率亦为0.01。当数据库的属性均为未知属性，即数据管理者无法预知攻击者具有多大的概率获取某一列，可以在分析时采取一视同仁的态度，即将所有属性被攻击者提前获取的概率设为一致，以得到科学的量化结果。

将所有的属性列分为三类，第一类作为数据库主键的主键列；第二类为至少在某个复合主键中出现过的复合主键列，对于该类，整理出所有包含该列的复合主键；第三类为在主键和复合主键中均未出现过的列。

5)根据步骤4)计算得到的数据库中各列被攻击成功的概率的大小对数据库中各列进行敏感度量化及排序，并输出敏感度量化及排序的结果，完成基于攻击概率的数据库属性敏感度量化。

步骤2)中的数据库主键分析系统为现有的分析数据库主键以及复合主键的算法框架和系统。1999年，C.Giannella和C.Wyss便在研究报告中实现了寻找数据库的最小复合主键。2011年CIKM会议论文集中《Advancing the discovery of unique columncombinations》一文便详细地阐述了一种新型的寻找数据库复合主键的方法。而在2017年，BTW会议论文集中《A Hybrid Approach for Efficient Unique Column CombinationDiscovery》一文提出的混合算法使得寻找复合主键的工作变得更加快捷。在此步骤中，只需将待分析的数据库输入至任一现有的复合主键寻找算法框架中，即可得到需要的主键和复合主键。

步骤4)中计算数据库中各列被攻击成功的概率的具体过程为：

设数据库中一共有n列(1,2,3,...,n)，设每一列提前被攻击者获取的概率为P(1),P(2),P(3),...P(n)。对于列x，设其被攻击者提前获取的概率为P(x)。

对于第一类的列x，即独立作为数据库主键的列，其被攻击成功的概率P_att(x)＝P(x)；

对于第二类的列x，即至少出现在某一个复合主键中的列，其被攻击成功的概率P_att(x)为：

P_att(x)＝P(x)×{1-[1-P_x(UCC1)]×[1-P_x(UCC2)]×...×[1-P_x(UCCn)]}

其中，UCC1，UCC2，...，UCCn表示由列x组成的n个复合主键。

P_x(UCC1),P_x(UCC2),...,P_x(UCCn)表示在列x已经被攻击者提前获取的前提下，攻击者分别通过UCC1，UCC2，...，UCCn攻击成功的概率。设列x组成的某个复合主键由k个不同的列组成，分别为j₁,j₂,...,j_k，则攻击者通过该复合主键攻击成功的概率P_x(UCCj)为：

P_x(UCCj)＝P(j₁)×P(j₂)×...×P(j_k-1)

即除列x以外其他组成该复合主键的列的提前被获取概率P之积。

对于第三类的列x，即从未在任何主键或复合主键中出现过的列，其被攻击成功的概率P_att(x)＝0。

实施例一

表1

ID	Sex	Birthday	Nation	Salary(<>50k)
					10564	M	0324	China	>
12368	M	0930	China	<
					13851	F	0930	Brazil	>
18635	F	0506	China	<
					20654	M	0825	USA	<
25101	F	1114	China	>

表1为某个人信息数据库，其中，每一行表示表1中某个人的ID，性别、生日、国籍及薪水信息，现对该数据库进行敏感度分析，具体过程为：

赋予每一列一个提前被攻击者获取的概率，经过数据管理者的经验以及基于已发布信息的综合分析，赋予每一列一个被攻击者提前获取的概率P＝{0.1，0.5，0.5，0.8，0.5}；

将数据库输入主键寻找算法框架中，分析其主键和复合主键，得到的输出结果为：

主键1：ID

复合主键2：Birthday Sex

复合主键3：Birthday Nation

复合主键4：Birthday Salary

复合主键5：Sex Nation Salary

对每一属性列进行分类整理，作为主键的第一类有：ID；作为复合主键的第二类有：Birthday(Birthday Sex；Birthday Nation；Birthday Salary)

Sex(Birthday Sex；Sex Nation Salary)

Nation(Birthday Nation；Sex Nation Salary)

Salary(Birthday Salary；Sex Nation Salary；)

在主键和复合主键中均不出现的第三类：无

根据公式计算得：

P_att(ID)＝P(ID)＝0.1

P_att(Birthday)＝P(Birthday)×{1-[1-P(Sex)]×[1-P(Nation)]×[1-P(Salary)]}＝0.4

P_att(Nation)＝P(Nation)×{1-[1-P(Birthday)]×[1-P(Sex)P(Salary)]}＝0.5

P_att(Salary)＝P(Salary)×{1-[1-P(Birthday)]×[1-P(Sex)P(Nation)]}＝0.35

P_att(Sex)＝P(Sex)×{1-[1-P(Birthday)]×[1-P(Nation)P(Salary)]}＝0.35

最终对各个列属性的量化排序结果如表2所示。

表2

属性	敏感度
		Nation	0.5
Birthday	0.4
		Salary	0.35
Sex	0.35
		ID	0.1

当选取敏感度阈值为0.4，即规定被攻击的概率大于40％时该列为敏感，则本实施例中的敏感列为：Nation列。

Claims

1.一种基于攻击概率的数据库属性敏感度量化方法，其特征在于，包括以下步骤：

1)赋予数据库中各列，攻击者可能提前获取该列的概率；

2.根据权利要求1所述的基于攻击概率的数据库属性敏感度量化方法，其特征在于，步骤3)中，将所有的属性列分为三类，第一类作为数据库主键的主键列；第二类为至少在某个复合主键中出现过的复合主键列；第三类为在主键和复合主键中均未出现过的列。

3.根据权利要求2所述的基于攻击概率的数据库属性敏感度量化方法，其特征在于，步骤4)中，计算数据库中各列被攻击成功的概率的具体过程为：

对于第一类的列，其被攻击成功的概率P_att(x)＝P(x)；

对于第二类的列，其被攻击成功的概率P_att(x)为：

P_att(x)＝P(x)×{1-[1-P_x(UCC1)]×[1-P_x(UCC2)]×...×[1-P_x(UCCn)]}

其中，UCC1，UCC2，...，UCCn表示由列x组成的n个复合主键；

P_x(UCCj)＝P(j₁)×P(j₂)×...×P(j_k-1)

对于第三类的列，其被攻击成功的概率P_att(x)＝0。