CN109857780B - 一种针对统计查询攻击的线性-正交数据发布方法 - Google Patents
一种针对统计查询攻击的线性-正交数据发布方法 Download PDFInfo
- Publication number
- CN109857780B CN109857780B CN201910043965.1A CN201910043965A CN109857780B CN 109857780 B CN109857780 B CN 109857780B CN 201910043965 A CN201910043965 A CN 201910043965A CN 109857780 B CN109857780 B CN 109857780B
- Authority
- CN
- China
- Prior art keywords
- equal
- data set
- sensitive attribute
- sensitive
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
一种针对统计查询攻击的线性‑正交数据发布方法,以保证在对单个敏感属性加入扰动保护的前提下,保证整体数据集在发布之后具有统计意义下的可用性。方法包括:判断敏感属性是否为数值型数据,若是,则由发布者把敏感属性划分为若干区间作为类别,否则,由程序把敏感属性映射在若干区间作为类别;为不同类别的数据随机生成不同的参数值做线性‑正交变换;为了保证整体数据集在统计意义下的可用性,将变换后的数据进行Kmeans聚类;验证聚类后的正确率是否满足阈值要求,若满足,则由发布者公开变换后的敏感属性数据集,否则重复上述过程直至聚类正确率满足阈值要求为止。
Description
技术领域
本发明属于计算机信息安全技术领域,涉及统计查询攻击、线性变换、正交变换、线性-正交变换、Kmeans聚类,具体涉及一种针对统计查询攻击的线性-正交数据发布方法。
背景技术
随着大数据与云计算的发展与人工智能时代的到来,各种信息管理系统都生成并存储了大量数据集以供相关领域的工作人员使用。因此,数据发布中的隐私保护问题逐渐成为了计算机信息安全领域的一个重要研究课题。
针对以表结构存储的数据集,一种常见的攻击方式是统计查询攻击。在发布以表结构存储的数据集时,发布者一般公开整个数据集的若干统计信息(如:具有某一特性的记录在整个数据集的占比),而不会直接发布任意一条记录的敏感属性值。即发布者为用户提供统计查询服务(如:求和查询)。攻击者利用该服务,可进行统计查询攻击,以获得某一记录的敏感属性值。
例如,以某一单位的员工工资为敏感属性,该敏感属性为数值型数据。现欲发布该单位员工的工资数据集,允许用户对若干名员工的工资平均值进行统计查询。记该工资数据集中第n名员工的敏感属性为xn,攻击者可通过如下步骤获得该员工的敏感属性:
又例如,以某一单位的员工籍贯为敏感属性,该敏感属性为非数值型数据。现欲发布该单位员工的籍贯数据集,允许用户对若干名员工的籍贯分布进行统计查询。记该籍贯数据集中的第n名员工的敏感属性为xn,攻击者可通过如下步骤获得该员工的敏感属性:
步骤1、查询该数据集中前n名员工的籍贯分布;
步骤2、查询该数据集中前(n-1)名员工的籍贯分布;
步骤3、比对步骤1与步骤2所得结果中的分布,即可得出xn的值。
隐私保护的核心思想是切断准标识符与敏感属性的一对一关系。
发明内容
为了克服上述现有技术的不足,本发明的目的是提供一种针对统计查询攻击的线性-正交数据发布方法,借鉴扰动方法的思想,对每一条记录的敏感属性做线性-正交变换,用以防御攻击者对以表结构存储的数据集的统计查询攻击。其核心在于线性-正交变换,该变换融合了线性变换与正交变换。与此同时,不同类别的敏感属性在不同的正交基下进行变换,一般会映射至不同的区间内,所以能保证整体数据集在发布之后具有统计意义下的可用性。
为了实现上述目的,本发明采用的技术方案是:
一种针对统计查询攻击的线性-正交数据发布方法,包括以下步骤:
步骤1、由发布者输入原始敏感属性数据集D和阈值p。为了尽可能地保证整体数据集在发布之后具有统计意义下的可用性,推荐p的取值范围为0.8≤p≤1;
步骤2、判断该数据集的敏感属性是否为数值型数据。若是,转入步骤3.1,否则,转入步骤3.2;
步骤3.1、由发布者把敏感属性划分为k个类别,记第i个类别的数据集为di(1≤i≤k);
步骤3.2、由程序把敏感属性映射到k个区间作为类别,记第i个类别的数据集为di(1≤i≤k);
将含有n条记录的非数值型数据集映射到k个区间;
输入:非数值型数据集D、D中的记录数目n、D中的敏感属性xi(1≤i≤n)、各个区间的长度length(length≠0);
输出:类别数目k、k个数值型数据集di(1≤i≤k);
其中,函数random(m,n)的作用是生成一个随机值r满足m≤r<n;
步骤4、为不同类别的敏感属性随机生成不同的参数值做线性-正交变换;
为不同类别的敏感属性随机生成不同的参数值做线性-正交变换;
输入:k个原始敏感数据集di(1≤i≤k)、参数α、参数β;
输出:k个发布敏感数据集d′i(1≤i≤k);
其中,函数random(m,n)的作用是生成一个随机值r满足m≤r<n;
因为正弦函数与余弦函数均是以2π为周期的函数,故生成正交基的参数θ的取值范围设定为0≤θ<2π;
步骤5、将变换后的数据进行Kmeans聚类,类别数目为k;
步骤6、验证聚类后的正确率是否满足发布者输入的阈值要求;若满足,则由发布者公开变换后的敏感属性数据集;否则,转入步骤4;具体如下步骤:
步骤6.1、将k个类别的原始敏感属性数据集按元素个数从小到大排列,记为di(1≤i≤k);
步骤6.2、将k个类别的发布敏感属性数据集按元素个数从小到大排列,记为d′i(1≤i≤k);
步骤6.3、当1≤i≤k时,计算dci=abs(|di|-|d′i|),其中,|di|表示第i个类别的原始敏感属性数据集的长度,|d′i|表示第i个类别的发布敏感属性数据集的长度,函数abs(n)的作用是求n的绝对值;
步骤6.5、设发布者输入的阈值为p,若acc≤p,则由发布者公开变换后的数据集;否则,转入步骤4;
验证聚类后的正确率是否满足发布者输入的阈值要求;
输入:k个类别的原始敏感属性数据集的长度|di|(1≤i≤k)、k个类别的发布敏感属性数据集的长度|d′i|(1≤i≤k)、数据集D中的记录数目n、阈值p;
输出:布尔型变量flag;
其中,函数abs(n)的作用是求n的绝对值。
进一步,步骤1所述的原始敏感属性数据集和阈值。该数据集必须是以表结构存储的数据集,其阈值p的推荐取值范围为0.8≤p≤1。
进一步,步骤2所述的敏感属性为隐私属性,是发布时需要保密的属性,可分为数值型数据与非数值型数据。
进一步,步骤3.1对于数值型敏感属性的处理与步骤3.2中对于非数值型敏感属性的处理。
进一步,步骤4所述的为不同类别的敏感属性随机生成不同的参数值做线性-正交变换,可以破坏攻击者通过统计查询攻击所获得信息的可用性,与此同时,保证整体数据集在发布之后具有统计意义下的可用性。
进一步,步骤5将变换后的数据进行Kmeans聚类,其中,k的取值与步骤3中的类别数目保持一致。
进一步,步骤6验证聚类后的正确率是否满足发布者输入的阈值要求;若满足,则由发布者公开变换后的敏感属性数据集;否则,转入步骤4,定义聚类后的正确率为acc,若满足acc≤p,则由发布者公开变换后的敏感属性数据集;否则,转入步骤4。
本发明的有益效果是:
1、本发明所采用的方法,借鉴了扰动方法与泛化方法的思想,克服了传统的访问控制技术与加密技术造成的数据不可用的缺点;
2、本发明所采用的方法,切断了准标识符与敏感属性的一对一关系,克服了传统的以表结构存储的数据集易受统计查询攻击的缺点;
3、本发明所采用的方法,结合了传统的线性变换与正交变换,严格遵循正交基的数学定义与三角函数的数学性质,用阈值鉴定变换所得结果的优劣,进而保证了整体数据集在统计意义下的可用性。
附图说明
图1为本发明的流程图示意图。
图2为本发明的线性-正交变换的示意图。
具体实施方式
以下结合附图对本发明进一步叙述。
如图1、2所示,一种针对统计查询攻击的线性-正交数据发布方法,其特征在于包括以下步骤:
步骤1、由发布者输入原始敏感属性数据集D和阈值p。为了尽可能地保证整体数据集在发布之后具有统计意义下的可用性,推荐p的取值范围为0.8≤p≤1;
步骤2、判断该数据集的敏感属性是否为数值型数据。若是,转入步骤3.1,否则,转入步骤3.2;
步骤3.1、由发布者把敏感属性划分为k个类别,记第i个类别的数据集为di(1≤i≤k);
步骤3.2、由程序把敏感属性映射到k个区间作为类别,记第i个类别的数据集为di(1≤i≤k);
将含有n条记录的非数值型数据集映射到k个区间;
输入:非数值型数据集D、D中的记录数目n、D中的敏感属性xi(1≤i≤n)、各个区间的长度length(length≠0);
输出:类别数目k、k个数值型数据集di(1≤i≤k);
其中,函数random(m,n)的作用是生成一个随机值r满足m≤r<n;
步骤4、为不同类别的敏感属性随机生成不同的参数值做线性-正交变换;
为不同类别的敏感属性随机生成不同的参数值做线性-正交变换;
输入:k个原始敏感数据集di(1≤i≤k)、参数α、参数β;
输出:k个发布敏感数据集d′i(1≤i≤k);
其中,函数random(m,n)的作用是生成一个随机值r满足m≤r<n;
因为正弦函数与余弦函数均是以2π为周期的函数,故生成正交基的参数θ的取值范围设定为0≤θ<2π;
步骤5、将变换后的数据进行Kmeans聚类,类别数目为k;
步骤6、验证聚类后的正确率是否满足发布者输入的阈值要求;若满足,则由发布者公开变换后的敏感属性数据集;否则,转入步骤4;具体如下步骤:
步骤6.1、将k个类别的原始敏感属性数据集按元素个数从小到大排列,记为di(1≤i≤k);
步骤6.2、将k个类别的发布敏感属性数据集按元素个数从小到大排列,记为d′i(1≤i≤k);
步骤6.3、当1≤i≤k时,计算dci=abs(|di|-|d′i|),其中,|di|表示第i个类别的原始敏感属性数据集的长度,|d′i|表示第i个类别的发布敏感属性数据集的长度,函数abd(n)的作用是求n的绝对值;
步骤6.5、设发布者输入的阈值为p,若acc≤p,则由发布者公开变换后的数据集;否则,转入步骤4;
验证聚类后的正确率是否满足发布者输入的阈值要求;
输入:k个类别的原始敏感属性数据集的长度|di|(1≤i≤k)、k个类别的发布敏感属性数据集的长度|d′i|(1≤i≤k)、数据集D中的记录数目n、阈值p;
输出:布尔型变量flag;
其中,函数abs(n)的作用是求n的绝对值。
Claims (3)
1.一种针对统计查询攻击的线性-正交数据发布方法,其特征在于,包括以下步骤:
步骤1、由发布者输入原始敏感属性数据集D和阈值p,为了尽可能地保证整体数据集在发布之后具有统计意义下的可用性,推荐p的取值范围为0.8≤p≤1;
步骤2、判断该数据集的敏感属性是否为数值型数据,若是,转入步骤3.1,否则,转入步骤3.2;
步骤3.1、由发布者把敏感属性划分为k个类别,记第i个类别的数据集为di,1≤i≤k;
步骤3.2、由程序把敏感属性映射到k个区间作为类别,记第i个类别的数据集为di,1≤i≤k;
步骤3.2具体实现过程如下:
将含有n条记录的非数值型数据集映射到k个区间;
输入:非数值型数据集D、D中的记录数目n、D中的敏感属性xi,1≤i≤k、各个区间的长度length,length≠0;
输出:类别数目k、k个数值型数据集di,1≤i≤k;
其中,函数random(m,n)的作用是生成一个随机值r满足
m≤r<n;
步骤4、为不同类别的敏感属性随机生成不同的参数值做线性-正交变换;
为不同类别的敏感属性随机生成不同的参数值做线性-正交变换具体实现过程如下;
输入:k个原始敏感数据集di,1≤i≤k、参数α、参数β;
输出:k个发布敏感数据集d′i,1≤i≤k;
其中,函数random(m,n)的作用是生成一个随机值r满足
m≤r<n;
因为正弦函数与余弦函数均是以2π为周期的函数,故生成正交基的参数θ的取值范围设定为0≤θ≤2π;
步骤5、将变换后的数据进行Kmeans聚类,类别数目为k;
步骤6、验证聚类后的正确率是否满足发布者输入的阈值要求;若满足,则由发布者公开变换后的敏感属性数据集;否则,转入步骤4;具体如下步骤:
步骤6.1、将k个类别的原始敏感属性数据集按元素个数从小到大排列,记为di,1≤i≤k;
步骤6.2、将k个类别的发布敏感属性数据集按元素个数从小到大排列,记为d′i,1≤i≤k;
步骤6.3、当1≤i≤k时,计算dci=abs(|di|-|d′i|),其中,|di|表示第i个类别的原始敏感属性数据集的长度,|d′i|表示第i个类别的发布敏感属性数据集的长度,函数abs(n)的作用是求n的绝对值;
步骤6.5、设发布者输入的阈值为p,若acc≤p,则由发布者公开变换后的数据集;否则,转入步骤4;
验证聚类后的正确率是否满足发布者输入的阈值要求具体实现过程如下;
输入:k个类别的原始敏感属性数据集的长度|di|,1≤i≤k、k个类别的发布敏感属性数据集的长度|d′i|,1≤i≤k、数据集D中的记录数目n、阈值p;
输出:布尔型变量flag;
其中,函数abs(n)的作用是求n的绝对值。
2.根据权利要求1所述的一种针对统计查询攻击的线性-正交数据发布方法,其特征在于,步骤2所述的敏感属性为隐私属性,是发布时需要保密的属性,可分为数值型数据与非数值型数据。
3.根据权利要求1所述的一种针对统计查询攻击的线性-正交数据发布方法,其特征在于,步骤4所述的为不同类别的敏感属性随机生成不同的参数值做线性-正交变换,可以破坏攻击者通过统计查询攻击所获得信息的可用性,与此同时,保证整体数据集在发布之后具有统计意义下的可用性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910043965.1A CN109857780B (zh) | 2019-01-17 | 2019-01-17 | 一种针对统计查询攻击的线性-正交数据发布方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910043965.1A CN109857780B (zh) | 2019-01-17 | 2019-01-17 | 一种针对统计查询攻击的线性-正交数据发布方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109857780A CN109857780A (zh) | 2019-06-07 |
CN109857780B true CN109857780B (zh) | 2023-04-28 |
Family
ID=66894982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910043965.1A Active CN109857780B (zh) | 2019-01-17 | 2019-01-17 | 一种针对统计查询攻击的线性-正交数据发布方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857780B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279697A (zh) * | 2013-05-15 | 2013-09-04 | 电子科技大学 | 基于正交矩阵和模运算的指纹细节信息隐藏与恢复方法 |
JP2016012074A (ja) * | 2014-06-30 | 2016-01-21 | 株式会社Nttドコモ | プライバシー保護装置、プライバシー保護方法及びデータベース作成方法 |
CN105608389A (zh) * | 2015-10-22 | 2016-05-25 | 广西师范大学 | 医疗数据发布的差分隐私保护方法 |
CN105760888A (zh) * | 2016-02-23 | 2016-07-13 | 重庆邮电大学 | 一种基于属性聚类的邻域粗糙集集成学习方法 |
CN106940777A (zh) * | 2017-02-16 | 2017-07-11 | 湖南宸瀚信息科技有限责任公司 | 一种基于敏感信息度量的身份信息隐私保护方法 |
CN107832631A (zh) * | 2017-11-13 | 2018-03-23 | 上海斐讯数据通信技术有限公司 | 一种数据发布的隐私保护方法和系统 |
CN108776763A (zh) * | 2018-06-08 | 2018-11-09 | 哈尔滨工程大学 | 一种基于属性相关的差分隐私保护方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040078587A1 (en) * | 2002-10-22 | 2004-04-22 | Cameron Brackett | Method, system, computer product and encoding format for creating anonymity in collecting patient data |
KR101175190B1 (ko) * | 2008-11-19 | 2012-08-20 | 한국전자통신연구원 | 데이터의 프라이버시를 보호하기 위한 회전 기반 변환 방법및 장치 |
US9135320B2 (en) * | 2012-06-13 | 2015-09-15 | Opera Solutions, Llc | System and method for data anonymization using hierarchical data clustering and perturbation |
-
2019
- 2019-01-17 CN CN201910043965.1A patent/CN109857780B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279697A (zh) * | 2013-05-15 | 2013-09-04 | 电子科技大学 | 基于正交矩阵和模运算的指纹细节信息隐藏与恢复方法 |
JP2016012074A (ja) * | 2014-06-30 | 2016-01-21 | 株式会社Nttドコモ | プライバシー保護装置、プライバシー保護方法及びデータベース作成方法 |
CN105608389A (zh) * | 2015-10-22 | 2016-05-25 | 广西师范大学 | 医疗数据发布的差分隐私保护方法 |
CN105760888A (zh) * | 2016-02-23 | 2016-07-13 | 重庆邮电大学 | 一种基于属性聚类的邻域粗糙集集成学习方法 |
CN106940777A (zh) * | 2017-02-16 | 2017-07-11 | 湖南宸瀚信息科技有限责任公司 | 一种基于敏感信息度量的身份信息隐私保护方法 |
CN107832631A (zh) * | 2017-11-13 | 2018-03-23 | 上海斐讯数据通信技术有限公司 | 一种数据发布的隐私保护方法和系统 |
CN108776763A (zh) * | 2018-06-08 | 2018-11-09 | 哈尔滨工程大学 | 一种基于属性相关的差分隐私保护方法 |
Non-Patent Citations (5)
Title |
---|
Hybrid intelligent access control framework to protect data privacy and theft;Jignesh C Doshi 等;《2015 International Conference on Advances in Computing, Communications and Informatics (ICACCI)》;20150928;1766-1770 * |
一种面向直方图发布的均衡差分隐私保护方法;杨旭东 等;《计算机学报》;20191216;第43卷(第8期);1414-1432 * |
一种面向聚类的隐私保护数据发布方法;崇志宏等;《计算机研究与发展》;20101215(第12期);61-67 * |
基于乘法扰动的数据挖掘隐私保护算法研究;石雅强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120915(第9期);I138-434 * |
随机正交变换法在隐私保持关联规则挖掘中的应用;许焕霞等;《科技和产业》;20100125(第01期);77-81 * |
Also Published As
Publication number | Publication date |
---|---|
CN109857780A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210089669A1 (en) | System and method for real-time transactional data obfuscation | |
CN108874863B (zh) | 一种数据访问的控制方法及数据库访问装置 | |
US9785795B2 (en) | Identifying and securing sensitive data at its source | |
US10467433B2 (en) | Event processing system | |
WO2019091102A1 (zh) | 脱敏规则配置方法、程序、应用服务器及计算机可读存储介质 | |
US9965644B2 (en) | Record level data security | |
Liu et al. | Privacy-preserving data publishing for multiple numerical sensitive attributes | |
Yin et al. | An improved anonymity model for big data security based on clustering algorithm | |
Caruccio et al. | GDPR compliant information confidentiality preservation in big data processing | |
TW202025020A (zh) | 基於區塊鏈的內容管理系統及方法、裝置、電子設備 | |
CN101847197A (zh) | 一种文档访问权限的控制方法 | |
CN111737703A (zh) | 一种基于动态数据脱敏技术的数据湖安全的实现方法 | |
TW202020756A (zh) | 數據權限管控方法及系統、計算機裝置及可讀存儲介質 | |
Idar et al. | Dynamic data sensitivity access control in Hadoop platform | |
CN109857780B (zh) | 一种针对统计查询攻击的线性-正交数据发布方法 | |
CN109299613B (zh) | 数据库分区权限的设置方法和终端设备 | |
CN116186757A (zh) | 一种效用增强的条件特征选择差分隐私数据发布方法 | |
CN110928963A (zh) | 针对运维业务数据表的列级权限知识图谱构建方法 | |
Wang et al. | Data provenance with retention of reference relations | |
CN107305614B (zh) | 一种基于满足二次聚集的mldm算法处理大数据的方法 | |
Khan et al. | The impact of check bits on the performance of bloom filter | |
Liu et al. | Adaptive gaussian mechanism based on expected data utility under conditional filtering noise | |
Dhivakar et al. | A survey on privacy preservation recent approaches and techniques | |
CN111639912A (zh) | 一种农村土地资源管理系统 | |
Song et al. | Achieving Efficient and Privacy-Preserving Location-Based Task Recommendation in Spatial Crowdsourcing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |