CN111191291A - 一种基于攻击概率的数据库属性敏感度量化方法 - Google Patents
一种基于攻击概率的数据库属性敏感度量化方法 Download PDFInfo
- Publication number
- CN111191291A CN111191291A CN202010007499.4A CN202010007499A CN111191291A CN 111191291 A CN111191291 A CN 111191291A CN 202010007499 A CN202010007499 A CN 202010007499A CN 111191291 A CN111191291 A CN 111191291A
- Authority
- CN
- China
- Prior art keywords
- database
- column
- probability
- columns
- attack
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
Abstract
本发明公开了一种基于攻击概率的数据库属性敏感度量化方法,包括以下步骤:1)赋予数据库中各列,攻击者可能提前获取该列的概率;2)将数据库输入到数据库主键分析系统中,得数据库的所有主键和复合主键;3)根据步骤2)输出的结果对数据库中的各列进行整理,找到各列分别出现在哪些主键和复合主键中;4)计算数据库中各列被攻击成功的概率;5)根据步骤4)计算得到的数据库中各列被攻击成功的概率的大小对数据库中各列进行敏感度量化和排序,并输出敏感度量化和排序的结果,完成基于攻击概率的数据库属性敏感度量化,该方法能够将数据库中所有属性根据攻击者攻击成功的概率进行敏感度的量化及排序,且准确性较高。
Description
技术领域
本发明属于数据安全技术领域,涉及一种基于攻击概率的数据库属性敏感度量化方法。
背景技术
随着大数据时代的来临,各种类型的数据在人们的日常生活中扮演了越来越重要的角色。形形色色的数据服务在给人们带来了无数便捷的同时,也衍生出了一系列的安全问题。例如社交网络中的手机号,照片,工作单位,出生年月等个人信息,以及用户的操作日志,定位信息等实时信息,都将被服务提供方存储进数据库中,这些数据一旦遭到攻击,发生数据泄露,那么用户所有的隐私信息就可能流入不法分子手中,后果不堪设想。因此,社会安全大数据带来的管理风险日益突出,如果不能妥善解决将必然造成“大数据就是大风险”的可怕后果。
要保护数据安全,首要与核心的步骤就是分析数据,识别和提取出敏感信息。数据敏感度量化技术指的是将结构化数据库中的属性列的敏感程度转化为直观精确的数字,并将各个列划分为不同的敏感等级。其意义在于迅速准确地识别出数据中的敏感成分和非敏感成分,对同一个数据库中,不同敏感程度的数据采取不同的处理方式,在尽量保持原有数据特征的同时,避免攻击者窃取到敏感数据,造成信息泄露等严重后果。
目前,现有的数据敏感度量化技术大致有以下几种:
直接利用模板匹配判定数据库中数据的类型和敏感度,例如预先定义出如“身份证号”,“手机号”,“银行卡号”等固定格式的敏感信息模板,再用这些模板去匹配数据库中的每一个列,以此判断数据库中是否有定义过的敏感信息列。此方法的缺点在于敏感信息是无法定义完的,采用预定义的方式定会漏掉一些未经定义但是也高度敏感的属性。并且模板匹配对于数据格式的要求非常严苛,如果某些数据的格式和预先定义模板的格式略有差异便有无法成功匹配的风险。
统计每个列的元素重复率,来量化该列的敏感程度。即统计每一列中存在多少不重复的数据,以此来量化其敏感程度,数据重复率越小的列越敏感,重复率越大的列越不敏感。例如数据库的主键在每个元组上均不重复,因此其敏感度最高。这种技术的缺点在于,它只从单个列入手分析敏感度,忽略了列与列之间的相互关系,并且忽略了每一列的语义信息。
综上所述,现有的敏感度量化制度有着敏感信息定义不全,列与列之间关系考虑不周等各种问题,在面对不同种类,不同语义信息,不同应用场景的数据库时,无法准确,快速地识别敏感信息并划分敏感度。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于攻击概率的数据库属性敏感度量化方法,该方法能够将数据库中所有属性根据攻击者攻击成功的概率进行敏感度的量化及排序,且准确性较高。
为达到上述目的,本发明所述的基于攻击概率的数据库属性敏感度量化方法包括以下步骤:
1)赋予数据库中各列,攻击者可能提前获取该列的概率;
2)将数据库输入到数据库主键分析系统中,得数据库的所有主键和复合主键;
3)根据步骤2)输出的结果对数据库中的各列进行整理,找到各列分别出现在哪些主键和复合主键中;
4)根据步骤1)中赋予的数据库中各列的概率以及步骤3)中得到的数据库中各列在复合主键及主键中的出现情况,计算数据库中各列被攻击成功的概率;
5)根据步骤4)计算得到的数据库中各列被攻击成功的概率的大小对数据库中各列进行敏感度量化及排序,输出敏感度量化及排序的结果,完成基于攻击概率的数据库属性敏感度量化。
步骤3)中,将所有的属性列分为三类,第一类作为数据库主键的主键列;第二类为至少在某个复合主键中出现过的复合主键列;第三类为在主键和复合主键中均未出现过的列。
步骤4)中,计算数据库中各列被攻击成功的概率的具体过程为:
设数据库中一共有n个列,设每一列提前被攻击者获取的概率为P(1),P(2),P(3),...P(n),对于列x,设其被攻击者提前获取的概率为P(x);
对于第一类的列,其被攻击成功的概率Patt(x)=P(x);
对于第二类的列,其被攻击成功的概率Patt(x)为:
Patt(x)=P(x)×{1-[1-Px(UCC1)]×[1-Px(UCC2)]×...×[1-Px(UCCn)]}
其中,UCC1,UCC2,...,UCCn表示由列x组成的n个复合主键;
Px(UCC1),Px(UCC2),...,Px(UCCn)表示在列x已经被攻击者提前获取的前提下,攻击者分别通过UCC1,UCC2,...,UCCn攻击成功的概率,设列x组成的某个复合主键由k个不同的列组成,分别为j1,j2,...,jk,则攻击者通过该复合主键攻击成功的概率Px(UCCj)为:
Px(UCCj)=P(j1)×P(j2)×...×P(jk-1)
即除列x以外其他组成该复合主键的列的提前被获取概率P之积;
对于第三类的列,其被攻击成功的概率Patt(x)=0。
本发明具有以下有益效果:
本发明所述的基于攻击概率的数据库属性敏感度量化方法在具体操作时,从攻击者的角度入手,先预先设定各列被攻击者获取的概率,再将数据库输入到数据库主键分析系统中,得数据库的所有主键和复合主键,并找到各列分别出现在哪些主键和复合主键中,并以此计算数据库中各列被攻击成功的概率,该概率作为敏感度排列的依据,既符合客观攻击模型,又使得结果真实可信,在保留数据可用性的前提下,快速精确地得到量化结果,为数据管理者提供了基于敏感度方面的参考,为进一步的数据脱敏以及数据发布工作打下了良好的基础。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
本发明所述的基于攻击概率的数据库属性敏感度量化方法包括以下步骤:
1)赋予数据库中各列,攻击者可能提前获取该列的概率;
具体的,步骤1)中赋予的攻击者可能提前获取该列的概率为估计值,由数据库管理者或风险评估专家,基于数据库中某些属性的已公开发布情况以及现有经验给出。例如,在某个人信息类数据库中,姓名信息已经公开,因此姓名属性已被攻击者获取的概率即为1,而公司地址属性曾经在某个相关数据库中公开发布过,根据经验,攻击者获取通过相关数据库该属性的概率为0.8。而其他属性从未公开发布,此数据库发生泄露的风险概率为0.01,因此其他属性被攻击者获取的概率亦为0.01。当数据库的属性均为未知属性,即数据管理者无法预知攻击者具有多大的概率获取某一列,可以在分析时采取一视同仁的态度,即将所有属性被攻击者提前获取的概率设为一致,以得到科学的量化结果。
2)将数据库输入到数据库主键分析系统中,得数据库的所有主键和复合主键;
3)根据步骤2)输出的结果对数据库中的各列进行整理,找到各列分别出现在哪些主键和复合主键中;
将所有的属性列分为三类,第一类作为数据库主键的主键列;第二类为至少在某个复合主键中出现过的复合主键列,对于该类,整理出所有包含该列的复合主键;第三类为在主键和复合主键中均未出现过的列。
4)根据步骤1)中赋予的数据库中各列的概率以及步骤3)中得到的数据库中各列在复合主键及主键中的出现情况,计算数据库中各列被攻击成功的概率;
5)根据步骤4)计算得到的数据库中各列被攻击成功的概率的大小对数据库中各列进行敏感度量化及排序,并输出敏感度量化及排序的结果,完成基于攻击概率的数据库属性敏感度量化。
步骤2)中的数据库主键分析系统为现有的分析数据库主键以及复合主键的算法框架和系统。1999年,C.Giannella和C.Wyss便在研究报告中实现了寻找数据库的最小复合主键。2011年CIKM会议论文集中《Advancing the discovery of unique columncombinations》一文便详细地阐述了一种新型的寻找数据库复合主键的方法。而在2017年,BTW会议论文集中《A Hybrid Approach for Efficient Unique Column CombinationDiscovery》一文提出的混合算法使得寻找复合主键的工作变得更加快捷。在此步骤中,只需将待分析的数据库输入至任一现有的复合主键寻找算法框架中,即可得到需要的主键和复合主键。
步骤4)中计算数据库中各列被攻击成功的概率的具体过程为:
设数据库中一共有n列(1,2,3,...,n),设每一列提前被攻击者获取的概率为P(1),P(2),P(3),...P(n)。对于列x,设其被攻击者提前获取的概率为P(x)。
对于第一类的列x,即独立作为数据库主键的列,其被攻击成功的概率Patt(x)=P(x);
对于第二类的列x,即至少出现在某一个复合主键中的列,其被攻击成功的概率Patt(x)为:
Patt(x)=P(x)×{1-[1-Px(UCC1)]×[1-Px(UCC2)]×...×[1-Px(UCCn)]}
其中,UCC1,UCC2,...,UCCn表示由列x组成的n个复合主键。
Px(UCC1),Px(UCC2),...,Px(UCCn)表示在列x已经被攻击者提前获取的前提下,攻击者分别通过UCC1,UCC2,...,UCCn攻击成功的概率。设列x组成的某个复合主键由k个不同的列组成,分别为j1,j2,...,jk,则攻击者通过该复合主键攻击成功的概率Px(UCCj)为:
Px(UCCj)=P(j1)×P(j2)×...×P(jk-1)
即除列x以外其他组成该复合主键的列的提前被获取概率P之积。
对于第三类的列x,即从未在任何主键或复合主键中出现过的列,其被攻击成功的概率Patt(x)=0。
实施例一
表1
ID | Sex | Birthday | Nation | Salary(<>50k) |
10564 | M | 0324 | China | > |
12368 | M | 0930 | China | < |
13851 | F | 0930 | Brazil | > |
18635 | F | 0506 | China | < |
20654 | M | 0825 | USA | < |
25101 | F | 1114 | China | > |
表1为某个人信息数据库,其中,每一行表示表1中某个人的ID,性别、生日、国籍及薪水信息,现对该数据库进行敏感度分析,具体过程为:
赋予每一列一个提前被攻击者获取的概率,经过数据管理者的经验以及基于已发布信息的综合分析,赋予每一列一个被攻击者提前获取的概率P={0.1,0.5,0.5,0.8,0.5};
将数据库输入主键寻找算法框架中,分析其主键和复合主键,得到的输出结果为:
主键1:ID
复合主键2:Birthday Sex
复合主键3:Birthday Nation
复合主键4:Birthday Salary
复合主键5:Sex Nation Salary
对每一属性列进行分类整理,作为主键的第一类有:ID;作为复合主键的第二类有:Birthday(Birthday Sex;Birthday Nation;Birthday Salary)
Sex(Birthday Sex;Sex Nation Salary)
Nation(Birthday Nation;Sex Nation Salary)
Salary(Birthday Salary;Sex Nation Salary;)
在主键和复合主键中均不出现的第三类:无
根据公式计算得:
Patt(ID)=P(ID)=0.1
Patt(Birthday)=P(Birthday)×{1-[1-P(Sex)]×[1-P(Nation)]×[1-P(Salary)]}=0.4
Patt(Nation)=P(Nation)×{1-[1-P(Birthday)]×[1-P(Sex)P(Salary)]}=0.5
Patt(Salary)=P(Salary)×{1-[1-P(Birthday)]×[1-P(Sex)P(Nation)]}=0.35
Patt(Sex)=P(Sex)×{1-[1-P(Birthday)]×[1-P(Nation)P(Salary)]}=0.35
最终对各个列属性的量化排序结果如表2所示。
表2
属性 | 敏感度 |
Nation | 0.5 |
Birthday | 0.4 |
Salary | 0.35 |
Sex | 0.35 |
ID | 0.1 |
当选取敏感度阈值为0.4,即规定被攻击的概率大于40%时该列为敏感,则本实施例中的敏感列为:Nation列。
Claims (3)
1.一种基于攻击概率的数据库属性敏感度量化方法,其特征在于,包括以下步骤:
1)赋予数据库中各列,攻击者可能提前获取该列的概率;
2)将数据库输入到数据库主键分析系统中,得数据库的所有主键和复合主键;
3)根据步骤2)输出的结果对数据库中的各列进行整理,找到各列分别出现在哪些主键和复合主键中;
4)根据步骤1)中赋予的数据库中各列的概率以及步骤3)中得到的数据库中各列在复合主键及主键中的出现情况,计算数据库中各列被攻击成功的概率;
5)根据步骤4)计算得到的数据库中各列被攻击成功的概率的大小对数据库中各列进行敏感度量化及排序,并输出敏感度量化及排序的结果,完成基于攻击概率的数据库属性敏感度量化。
2.根据权利要求1所述的基于攻击概率的数据库属性敏感度量化方法,其特征在于,步骤3)中,将所有的属性列分为三类,第一类作为数据库主键的主键列;第二类为至少在某个复合主键中出现过的复合主键列;第三类为在主键和复合主键中均未出现过的列。
3.根据权利要求2所述的基于攻击概率的数据库属性敏感度量化方法,其特征在于,步骤4)中,计算数据库中各列被攻击成功的概率的具体过程为:
设数据库中一共有n个列,设每一列提前被攻击者获取的概率为P(1),P(2),P(3),...P(n),对于列x,设其被攻击者提前获取的概率为P(x);
对于第一类的列,其被攻击成功的概率Patt(x)=P(x);
对于第二类的列,其被攻击成功的概率Patt(x)为:
Patt(x)=P(x)×{1-[1-Px(UCC1)]×[1-Px(UCC2)]×...×[1-Px(UCCn)]}
其中,UCC1,UCC2,...,UCCn表示由列x组成的n个复合主键;
Px(UCC1),Px(UCC2),...,Px(UCCn)表示在列x已经被攻击者提前获取的前提下,攻击者分别通过UCC1,UCC2,...,UCCn攻击成功的概率,设列x组成的某个复合主键由k个不同的列组成,分别为j1,j2,...,jk,则攻击者通过该复合主键攻击成功的概率Px(UCCj)为:
Px(UCCj)=P(j1)×P(j2)×...×P(jk-1)
即除列x以外其他组成该复合主键的列的提前被获取概率P之积;
对于第三类的列,其被攻击成功的概率Patt(x)=0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010007499.4A CN111191291B (zh) | 2020-01-04 | 2020-01-04 | 一种基于攻击概率的数据库属性敏感度量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010007499.4A CN111191291B (zh) | 2020-01-04 | 2020-01-04 | 一种基于攻击概率的数据库属性敏感度量化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191291A true CN111191291A (zh) | 2020-05-22 |
CN111191291B CN111191291B (zh) | 2022-06-17 |
Family
ID=70708739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010007499.4A Active CN111191291B (zh) | 2020-01-04 | 2020-01-04 | 一种基于攻击概率的数据库属性敏感度量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191291B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948881A (zh) * | 2021-03-16 | 2021-06-11 | 西安电子科技大学 | 一种开放场景下信息泄露概率的计算方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050289342A1 (en) * | 2004-06-28 | 2005-12-29 | Oracle International Corporation | Column relevant data security label |
US20120023586A1 (en) * | 2010-07-22 | 2012-01-26 | International Business Machines Corporation | Determining privacy risk for database queries |
US20130226940A1 (en) * | 2012-02-28 | 2013-08-29 | International Business Machines Corporation | Generating Composite Key Relationships Between Database Objects Based on Sampling |
US20140164405A1 (en) * | 2012-12-12 | 2014-06-12 | Institute For Information Industry | Dynamic data masking method and database system |
US20150007249A1 (en) * | 2013-06-26 | 2015-01-01 | Sap Ag | Method and system for on-the-fly anonymization on in-memory databases |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
-
2020
- 2020-01-04 CN CN202010007499.4A patent/CN111191291B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050289342A1 (en) * | 2004-06-28 | 2005-12-29 | Oracle International Corporation | Column relevant data security label |
US20120023586A1 (en) * | 2010-07-22 | 2012-01-26 | International Business Machines Corporation | Determining privacy risk for database queries |
US20130226940A1 (en) * | 2012-02-28 | 2013-08-29 | International Business Machines Corporation | Generating Composite Key Relationships Between Database Objects Based on Sampling |
US20140164405A1 (en) * | 2012-12-12 | 2014-06-12 | Institute For Information Industry | Dynamic data masking method and database system |
US20150007249A1 (en) * | 2013-06-26 | 2015-01-01 | Sap Ag | Method and system for on-the-fly anonymization on in-memory databases |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
Non-Patent Citations (3)
Title |
---|
ABDELHAMEED S.A. ET AL: ""Privacy-preserving tabular data publishing: a comprehensive evaluation from web to cloud"", 《COMPUTERS & SECURITY》 * |
CHIA P.H. ET AL: ""Khyperloglog: estimating reidentifiability and joinability of large data at scale"", 《2019 IEEE SYMPOSIUM ON SECURITY AND PRIVACY (SP)》 * |
SHLOMO N.: ""Methods to assess and quantify disclosure risk and information loss under statistical disclosure control"", 《GOVERNMENT STATISTICAL SERVICE》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948881A (zh) * | 2021-03-16 | 2021-06-11 | 西安电子科技大学 | 一种开放场景下信息泄露概率的计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111191291B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020062660A1 (zh) | 企业信用风险评估方法、装置、设备及存储介质 | |
WO2021068601A1 (zh) | 病历检测方法、装置、设备及存储介质 | |
WO2020207167A1 (zh) | 文本分类方法、装置、设备及计算机可读存储介质 | |
JP2013541754A (ja) | データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 | |
CN109284371B (zh) | 反欺诈方法、电子装置及计算机可读存储介质 | |
CN108038208B (zh) | 上下文信息识别模型的训练方法、装置和存储介质 | |
WO2021012793A1 (zh) | 基于大数据分析的律师推荐方法及相关设备 | |
CN108509561B (zh) | 基于机器学习的岗位招聘数据筛选方法、系统及存储介质 | |
WO2020048056A1 (zh) | 一种风险决策方法和装置 | |
CN111144068A (zh) | 一种相似仲裁案件推荐方法及装置 | |
CN111177367A (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN110597844A (zh) | 异构数据库数据统一访问方法及相关设备 | |
CN112598489A (zh) | 基于金融应用的风险监测方法及系统 | |
CN114153962A (zh) | 一种数据匹配方法、装置及电子设备 | |
CN112052891A (zh) | 机器行为识别方法、装置、设备及计算机可读存储介质 | |
CN111460803B (zh) | 基于工业物联网设备Web管理页面的设备识别方法 | |
CN111191291B (zh) | 一种基于攻击概率的数据库属性敏感度量化方法 | |
US11934556B2 (en) | Identifying sensitive content in electronic files | |
WO2023035362A1 (zh) | 用于模型训练的污染样本数据的检测方法及装置 | |
CN111582757B (zh) | 欺诈风险的分析方法、装置、设备及计算机可读存储介质 | |
CN111460139B (zh) | 一种基于智慧管理的工程监理知识服务系统及方法 | |
WO2024087754A1 (zh) | 一种多维度文本综合辨识方法 | |
CN115794798B (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
CN115618415A (zh) | 敏感数据识别方法、装置、电子设备和存储介质 | |
CN111831286A (zh) | 一种用户投诉处理方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |