CN113743496A - 一种基于聚类映射的k-匿名数据处理方法及系统 - Google Patents
一种基于聚类映射的k-匿名数据处理方法及系统 Download PDFInfo
- Publication number
- CN113743496A CN113743496A CN202111020126.1A CN202111020126A CN113743496A CN 113743496 A CN113743496 A CN 113743496A CN 202111020126 A CN202111020126 A CN 202111020126A CN 113743496 A CN113743496 A CN 113743496A
- Authority
- CN
- China
- Prior art keywords
- data table
- distance
- processed
- generalization
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 49
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000013139 quantization Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 240000008067 Cucumis sativus Species 0.000 description 2
- 235000010799 Cucumis sativus var sativus Nutrition 0.000 description 2
- 244000061456 Solanum tuberosum Species 0.000 description 2
- 235000002595 Solanum tuberosum Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于聚类映射的K‑匿名数据处理方法及系统,涉及数据发布隐私保护技术领域,包括:对待发布数据表进行预处理,得到待处理数据表;预设待处理数据表的隐私保护程度;对待处理数据表中的准标识属性预定义泛化规则;定义量化待处理数据表中记录之间距离的距离量化模型;根据距离量化模型及隐私保护程度完成数据表记录的聚类映射,生成分组信息;根据分组信息按照泛化规则进行泛化处理,形成待发布的匿名数据表。本发明基于距离信息进行聚类映射完成分组,再以分组为单位对表中的记录进行泛化操作,实现了保留待发布数据表中数据的效用,同时能够应对链接攻击造成的隐私泄露,实现隐私保护。
Description
技术领域
本发明涉及数据发布隐私保护技术领域,尤其是涉及一种基于聚类映射的K-匿名数据处理方法及系统。
背景技术
随着数据挖掘、大容量存储以及信息共享等相关技术的迅速发展,隐私保护已成为个人和社会越来越关心的热点问题之一。目前,市场上相当多的应用软件都频繁地收集大量用户的个人信息,实现信息共享较以前来说更为便捷;但是也使得以信息共享与数据挖掘等作为生产经营和科学研究等目的的数据,在公开过程中暴露的隐私泄露问题也日益严峻。例如,恶意的攻击者会收集机构或组织公开发布的数据,并与其他渠道获得的外部信息结合从而推测出相关用户的隐私信息。因此,如何在数据发布过程中有效地保护用户隐私信息就显得极其重要。数据发布者在进行数据公开前需要对数据集中包含的个人隐私数据进行预处理,使得发布的数据表中的用户个人信息与隐私信息不再存在一对一的关联关系,不泄露个体的隐私信息;另一方面是要尽量保留发布的匿名数据的可用性,即仍然能够根据发布的匿名数据进行以研究为目的的较为准确的数据分析。
数据发布中隐私泄露控制技术主要有分组技术、加密技术和失真技术这三类,其中分组技术较为常用。目前常见的分组技术较多关注的是个人隐私信息安全,很少关注匿名数据的效用。这对于一些使用发布的匿名数据进行研究分析和知识挖掘的数据使用者来说,通过分组划分技术实现的数据匿名化会大大降低匿名数据的效用,基于此数据进行生产分析和模型构建时会对结果的准确性及可信度方面产生严重的偏差。
因此,目前存在的问题是如何最大程度保留匿名数据的可用性,同时应对链接攻击造成的隐私泄露问题。
发明内容
针对上述社交网络中隐私信息扩散传播问题,本发明提供了一种基于聚类映射的K-匿名数据处理方法及系统,既可以保留数据效用,同时能够应对链接攻击造成的隐私泄露,实现隐私保护。
为实现上述目的,本发明提供了一种基于聚类映射的K-匿名数据处理方法,包括:
对待发布数据表进行预处理,得到待处理数据表;
预设所述待处理数据表的隐私保护程度;
对所述待处理数据表中的准标识属性预定义泛化规则;
定义量化所述待处理数据表中记录之间距离的距离量化模型;
根据所述距离量化模型及所述隐私保护程度完成数据表记录的聚类映射,生成分组信息;
根据所述分组信息按照所述泛化规则进行泛化处理,形成待发布的匿名数据表。
作为本发明的进一步改进,所述对待发布数据表进行预处理,得到待处理数据表;包括:
仅保留所述待发布数据表中准标识属性和敏感属性,构成待处理数据表。
作为本发明的进一步改进,所述预设隐私保护程度,包括:
根据所述待处理数据表中信息的重要程度确定隐私保护程度,即隐私保护阈值K;
所述隐私保护阈值K设定在2到所述待发布数据表中记录总条数之间的整数。
作为本发明的进一步改进,所述对所述待处理数据表中的准标识属性预定义泛化规则;包括:
若所述准标识属性的数据类型为数值型,则无需预定义,在所述泛化处理过程中动态获取;
若所述准标识属性的数据类型为分类型,则按照该所述准标识属性的语义建立泛化树,将各所述准标识属性的属性值泛化为语义更抽象、范围更广的属性值。
作为本发明的进一步改进,所述待处理数据表中两条记录在所有所述准标识属性上的距离的总合作为该所述两条记录的量化距离。
作为本发明的进一步改进,对于所述准标识属性为数值型的,任意两个记录之间的距离为:
其中,
vi和vj分别表示两个记录在数值型准标识属性上的取值;
D表示该数值属性的域值大小;
对于所述准标识属性为分类型的,任意两个记录之间的距离为:
DistC(vi,vj)=Dist(vi,Λ(vi,vj))*Dist(vj,Λ(vi,vj))
其中,
Λ(vi,vj)表示叶子节点vi和vj的最小公共父节点;
H(X)表示节点X在泛化树的高度;
H(TC)表示该属性泛化树的总高度;
node(X)表示节点X在泛化树上包含的叶子节点数;
node(TC)表示该属性泛化树的总叶子节点数。
作为本发明的进一步改进,所述根据所述距离量化模型及所述隐私保护程度完成数据表记录的聚类映射,生成分组信息;包括:
将待处理数据表中每个准标识属性列中的高频值构成序列值;
根据所述距离量化模型度量所述待处理数据表中所有记录与所述序列值之间的量化距离,选择所述量化距离最小的一条记录作为第一个聚类质心;
根据所述距离量化模型度量所述待处理数据表中所有记录与第一个所述聚类质心之间的量化距离,选择与第一个所述聚类质心的所述量化距离最近的K条记录划分为一个分组;
根据所述距离量化模型度量所述待处理数据表中剩余未分组记录到已有聚类质心的距离总和最小的一条作为一个所述聚类质心;
根据所述距离量化模型度量所述待处理数据表中所有剩余未分组记录与该所述聚类质心之间的量化距离,选择与该所述聚类质心的所述量化距离最近的K条记录划分为一个分组;
迭代聚类映射,直至完成所有聚类的映射。
作为本发明的进一步改进,存储所有完成聚类映射的所述记录的分组编号,形成分组信息;
检查分组信息,若存在未进行分组的记录,则根据所述距离量化模型度量该记录与各所述聚类质心之间的量化距离,并加入所述量化距离最近的聚类;
更新所述分组信息。
作为本发明的进一步改进,根据所述分组信息按照所述泛化规则进行泛化处理,包括:
所述准标识属性为数值型的,以分组为单位,按照分组中所有记录在该准标识属性的阈值空间作为泛化处理的结果;
所述准标识属性为分类型的,以分组为单位,按照分组中所有记录在该准标识属性对应泛化树中的最小公共父节点作为泛化处理的结果;
将所述泛化处理的结果以分组为单位对分组中的记录在各所述准标识属性的对应位置上进行全部更新,形成待发布的匿名数据表。
本发明还提供了一种基于聚类映射的K-匿名数据处理系统,包括:数据表预处理模块、泛化规则预定义模块、隐私需求定制模块、距离量化模型、聚类映射分组模块和数据泛化处理模块;
所述数据表预处理模块,用于:
对待发布数据表进行预处理,得到待处理数据表;
所述泛化规则预定义模块,用于:
对所述待处理数据表中的准标识属性预定义泛化规则;
所述隐私需求定制模块,用于:
预设所述待处理数据表的隐私保护程度;
所述距离量化模型,用于:
量化所述待处理数据表中记录之间的距离;
所述聚类映射分组模块,用于:
根据所述距离量化模型及所述隐私保护程度完成数据表记录的聚类映射,生成分组信息;
所述数据泛化处理模块,用于:
根据所述分组信息按照所述泛化规则进行泛化处理,形成待发布的匿名数据表。
与现有技术相比,本发明的有益效果为:
本发明引入距离量化模型,将待发布数据表中的记录在映射空间中彼此之间的距离信息量化出来,并基于距离信息进行聚类映射完成分组划分,以分组为单位对表中的记录进行泛化操作,至此完成数据表的匿名化处理,该方法能够尽可能地保留数据效用,同时能够应对链接攻击造成的隐私泄露,实现隐私保护。
附图说明
图1为本发明一种实施例公开的基于聚类映射的K-匿名数据处理方法流程图;
图2为本发明一种实施例公开的基于聚类映射的K-匿名数据处理系统示意图;
图3为本发明一种实施例公开的基于聚类映射的K-匿名数据处理过程整体示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1、3所示,本发明提供的一种基于聚类映射的K-匿名数据处理方法,包括:
S1、对待发布数据表进行预处理,得到待处理数据表;
其中,
在日常生活中,服务器接受来自不同信息源的数据存储在数据库中不同的关系数据表中。例如,对于来自医疗健康信息源的用户数据存储在数据库中的医疗信息数据表中,以便数据发布者能够根据医疗信息数据表中属性列的词条信息准确划分标识属性、准标识属性、敏感属性以及其他属性。
标识属性是能够直接区分数据表中个体身份的属性,在数据预处理阶段直接删除,其他属性直接忽略,仅保留准标识属性及敏感属性形成待处理数据表。
S2、预设待处理数据表的隐私保护程度;
其中,
在日常生活中,不同数据表对不同方面隐私的保护程度也十分不同。以“医疗信息表”和“选民信息表”为例,前者较为关注用户的疾病隐私,在公开发布医疗信息表时通常会提高数据表的隐私保护阈值,以加大对发布医疗数据的隐私保护程度;对于后者来说较为关注用户的身份信息,在预处理待发布数据表阶段就已删除选民信息表中能唯一识别用户身份信息的标识属性,如身份证号、手机号等,因此数据发布者设定选民信息表的隐私保护阈值不及前者。设定的阈值越大说明对该数据表的隐私保护程度就越大。
根据待处理数据表中信息的重要程度确定隐私保护程度,即隐私保护阈值K,这个隐私保护阈值K是个具体的数值,设定隐私保护阈值K是2到待发布数据表中记录总条数之间的整数,表示该系统设定的待发布数据表承受链接攻击的能力;例如:数据拥有者设定隐私保护程度(即隐私保护阈值)为4,在数据表泛化处理结束后,匿名数据表在准标识属性序列上取值相同的记录条数至少为4,那么,攻击者在准标识属性上与外部信息结合准确识别个体身份的概率就降为0.25;也即:隐私保护程度会用来决定分组中最少所包含的记录个数。
S3、对待处理数据表进行检查,判断待处理数据表中的任意一条记录在准标识属性序列上取值相同的个数是否不低于隐私保护阈值K,若不低于阈值则可将待处理数据表文件直接进行数据发布,否则,进入以下步骤,继续进行数据的匿名化处理。
S4、对待处理数据表中的准标识属性预定义泛化规则;
其中,
根据待处理数据表中准标识属性的数据类型,预定义泛化规则;
若准标识属性的数据类型为数值型,则无需预定义,在泛化处理过程中动态获取即可;例如,泛化处理过程中,“年龄”这一准标识属性,某分组中的所有记录在该准标识属性的最大值和最小值分别为50和23,那么该分组中所有记录在该“年龄”属性上的值将更新为“[23-50]”。
若准标识属性的数据类型为分类型,则分析待处理数据表中的每个分类型属性按照其语义建立泛化树,从泛化树的根节点到叶子节点的属性值在语义上从抽象到具体,位于根节点的属性值可用性最低,位于叶子节点的属性值可用性最高。例如:“蔬菜”属性其对应的泛化树高度为2,“*”即是该属性泛化树的根节点,“土豆”、“黄瓜”彼此为兄弟节点又是“蔬菜”属性对应泛化树的叶子节点,那么,“土豆”和“黄瓜”可向上泛化至其父节点“*”,即用抽象、宽泛的值代替原有的具体值;例如,“徐汇区”可以用“上海”取代,也可以用语义范围更广的“中国”取代。
S1至S4是本发明中K-匿名数据处理过程中的第一阶段——数据准备阶段,第一阶段运行完成表示系统实施聚类映射之前的准备工作已经完成,可以开始进行聚类映射的工作。
S5、定义量化待处理数据表中记录之间距离的距离量化模型;
其中,距离量化模型对不同类型的数据采用不同的度量方式:
(1)对于准标识属性为数值型的,任意两个记录之间的距离为:
其中,
vi和vj分别表示两个记录在数值型准标识属性上的取值;
D表示该数值属性的域值大小。
(2)对于准标识属性为分类型的,量化分类型准标识属性叶子节点vi和vj之间的距离时综合考虑了其泛化树的深度特性和广度特性,并与信息损失量成正相关;叶子节点vi和vj之间的距离为:
任意两个记录之间的距离为:
DistC(vi,vj)=Dist(vi,Λ(vi,vj))*Dist(vj,Λ(vi,vj))
其中,
Λ(vi,vj)表示叶子节点vi和vj的最小公共父节点;
H(X)表示节点X在泛化树的高度;
H(TC)表示该属性泛化树的总高度;
node(X)表示节点X在泛化树上包含的叶子节点数;
node(TC)表示该属性泛化树的总叶子节点数。
然后,待处理数据表中两条记录在所有准标识属性上的距离的总合作为该两条记录的量化距离。
S6、根据距离量化模型及隐私保护程度完成数据表记录的聚类映射,生成分组信息;
其中,
可根据隐私保护阈值确定最终形成的聚类个数,聚类个数是待处理数据表中记录数除以隐私保护阈值的最大整除数。
分组过程包括:
(1)获得初始聚类质心,并生成分组;
将待处理数据表中每个准标识属性列中的高频值构成序列值;
根据距离量化模型度量待处理数据表中所有记录与序列值之间的量化距离,选择量化距离最小的一条记录作为第一个聚类质心(即初始聚类质心);
根据距离量化模型度量待处理数据表中所有记录与第一个聚类质心之间的量化距离,选择与第一个聚类质心的量化距离最近的K条记录划分为一个分组。
(2)迭代聚类映射,获取剩余分组;
根据距离量化模型度量待处理数据表中剩余未分组记录到已有聚类质心的距离总和最小的一条作为一个聚类质心;
根据距离量化模型度量待处理数据表中所有剩余未分组记录与该聚类质心之间的量化距离,选择与该聚类质心的量化距离最近的K条记录划分为一个分组;
迭代聚类映射,直至完成所有聚类的映射。
(3)存储所有完成聚类映射的记录的分组编号,形成分组信息。
(4)检查分组信息,若存在未进行分组的记录,则根据距离量化模型度量该记录与各聚类质心之间的量化距离,并加入量化距离最近的聚类;并更新分组信息。
S5至S6是本发明中的第二阶段——聚类映射阶段,第二阶段运行完成表示系统实施泛化处理之前的准备工作已经完成,可以开始进行待处理数据表的泛化处理工作。
S7、根据分组信息按照泛化规则进行泛化处理,形成待发布的匿名数据表。
其中,系统接收反馈来的分组信息并根据预定义的泛化规则以分组为单位对待处理数据表中的记录实施信息损失量最小的泛化操作。
包括:
准标识属性为数值型的,以分组为单位,按照分组中所有记录在该准标识属性的阈值空间作为泛化处理的结果;例如,“年龄”属性,某分组中的所有记录在该属性的最大值和最小值分别为50和23,那么该分组中所有记录在该“年龄”属性上的值将更新为“[23-50]”;
准标识属性为分类型的,以分组为单位,按照分组中所有记录在该准标识属性对应泛化树中的最小公共父节点作为泛化处理的结果;
将泛化处理的结果以分组为单位对分组中的记录在各准标识属性的对应位置上进行全部更新,形成待发布的匿名数据表。
待发布的匿名数据表发布后,供数据挖掘者、数据分析者使用。
如图2所示,本发明还提供了一种基于聚类映射的K-匿名数据处理系统,包括:数据表预处理模块、泛化规则预定义模块、隐私需求定制模块、距离量化模型、聚类映射分组模块和数据泛化处理模块;
数据表预处理模块,用于完成上述步骤S1,即:
对待发布数据表进行预处理,得到待处理数据表;
泛化规则预定义模块,用于完成上述步骤S4,即:
对待处理数据表中的准标识属性预定义泛化规则;
隐私需求定制模块,用于完成上述步骤S2,即:
预设待处理数据表的隐私保护程度;
距离量化模型,用于完成上述步骤S5,即:
量化待处理数据表中记录之间的距离;
聚类映射分组模块,用于完成上述步骤S6,即:
根据距离量化模型及隐私保护程度完成数据表记录的聚类映射,生成分组信息;
数据泛化处理模块,用于完成上述步骤S7,即:
根据分组信息按照泛化规则进行泛化处理,形成待发布的匿名数据表。
本发明的优点:
本发明引入距离量化模型,将待发布数据表中的记录在映射空间中彼此之间的距离信息量化出来,并基于距离信息进行聚类映射完成分组划分,以分组为单位对表中的记录进行泛化操作,至此完成数据表的匿名化处理,该方法能够尽可能地保留数据效用,同时能够应对链接攻击造成的隐私泄露,实现隐私保护。
本发明的距离量化模型首次结合泛化树的深度和广度两个维度上的特性,并与信息损失量成正相关;然后又提供一种匿名化算法,是一种基于距离量化模型实现聚类映射的个体隐私保护方案。在匿名化算法中,数据拥有者可以根据系统预设的隐私阈值,通过距离量化、聚类映射以及泛化操作得到相对应的匿名化数据,然后将匿名化后的数据进行公开发布,这是一种更准确且更精细的匿名化处理方法。
本发明将数据点之间的距离量化信息用于聚类映射对数据进行匿名化处理,能够更好的保留匿名数据的效用,适用于任何具有分类型和数值型的用户隐私敏感信息的数据匿名化方案中,应用前景广阔,比如快递信息、医疗数据等等。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于聚类映射的K-匿名数据处理方法,其特征在于,包括:
对待发布数据表进行预处理,得到待处理数据表;
预设所述待处理数据表的隐私保护程度;
对所述待处理数据表中的准标识属性预定义泛化规则;
定义量化所述待处理数据表中记录之间距离的距离量化模型;
根据所述距离量化模型及所述隐私保护程度完成数据表记录的聚类映射,生成分组信息;
根据所述分组信息按照所述泛化规则进行泛化处理,形成待发布的匿名数据表。
2.根据权利要求1所述的K-匿名数据处理方法,其特征在于,所述对待发布数据表进行预处理,得到待处理数据表;包括:
仅保留所述待发布数据表中准标识属性和敏感属性,构成待处理数据表。
3.根据权利要求1所述的K-匿名数据处理方法,其特征在于,所述预设隐私保护程度,包括:
根据所述待处理数据表中信息的重要程度确定隐私保护程度,即隐私保护阈值K;
所述隐私保护阈值K设定在2到所述待发布数据表中记录总条数之间的整数。
4.根据权利要求1所述的K-匿名数据处理方法,其特征在于,所述对所述待处理数据表中的准标识属性预定义泛化规则;包括:
若所述准标识属性的数据类型为数值型,则无需预定义,在所述泛化处理过程中动态获取;
若所述准标识属性的数据类型为分类型,则按照该所述准标识属性的语义建立泛化树,将各所述准标识属性的属性值泛化为语义更抽象、范围更广的属性值。
5.根据权利要求1所述的K-匿名数据处理方法,其特征在于:所述待处理数据表中两条记录在所有所述准标识属性上的距离的总合作为该所述两条记录的量化距离。
6.根据权利要求5所述的K-匿名数据处理方法,其特征在于:对于所述准标识属性为数值型的,任意两个记录之间的距离为:
其中,
vi和vj分别表示两个记录在数值型准标识属性上的取值;
D表示该数值属性的域值大小;
对于所述准标识属性为分类型的,任意两个记录之间的距离为:
DistC(vi,vj)=Dist(vi,Λ(vi,vj))*Dist(vj,Λ(vi,vj))
其中,
Λ(vi,vj)表示叶子节点vi和vj的最小公共父节点;
H(X)表示节点X在泛化树的高度;
H(TC)表示该属性泛化树的总高度;
node(X)表示节点X在泛化树上包含的叶子节点数;
node(TC)表示该属性泛化树的总叶子节点数。
7.根据权利要求1所述的K-匿名数据处理方法,其特征在于:所述根据所述距离量化模型及所述隐私保护程度完成数据表记录的聚类映射,生成分组信息;包括:
将待处理数据表中每个准标识属性列中的高频值构成序列值;
根据所述距离量化模型度量所述待处理数据表中所有记录与所述序列值之间的量化距离,选择所述量化距离最小的一条记录作为第一个聚类质心;
根据所述距离量化模型度量所述待处理数据表中所有记录与第一个所述聚类质心之间的量化距离,选择与第一个所述聚类质心的所述量化距离最近的K条记录划分为一个分组;
根据所述距离量化模型度量所述待处理数据表中剩余未分组记录到已有聚类质心的距离总和最小的一条作为一个所述聚类质心;
根据所述距离量化模型度量所述待处理数据表中所有剩余未分组记录与该所述聚类质心之间的量化距离,选择与该所述聚类质心的所述量化距离最近的K条记录划分为一个分组;
迭代聚类映射,直至完成所有聚类的映射。
8.根据权利要求7所述的K-匿名数据处理方法,其特征在于:存储所有完成聚类映射的所述记录的分组编号,形成分组信息;
检查分组信息,若存在未进行分组的记录,则根据所述距离量化模型度量该记录与各所述聚类质心之间的量化距离,并加入所述量化距离最近的聚类;
更新所述分组信息。
9.根据权利要求1所述的K-匿名数据处理方法,其特征在于:根据所述分组信息按照所述泛化规则进行泛化处理,包括:
所述准标识属性为数值型的,以分组为单位,按照分组中所有记录在该准标识属性的阈值空间作为泛化处理的结果;
所述准标识属性为分类型的,以分组为单位,按照分组中所有记录在该准标识属性对应泛化树中的最小公共父节点作为泛化处理的结果;
将所述泛化处理的结果以分组为单位对分组中的记录在各所述准标识属性的对应位置上进行全部更新,形成待发布的匿名数据表。
10.一种实现权利要求1~9任一项所述的K-匿名数据处理方法的系统,其特征在于,包括:数据表预处理模块、泛化规则预定义模块、隐私需求定制模块、距离量化模型、聚类映射分组模块和数据泛化处理模块;
所述数据表预处理模块,用于:
对待发布数据表进行预处理,得到待处理数据表;
所述泛化规则预定义模块,用于:
对所述待处理数据表中的准标识属性预定义泛化规则;
所述隐私需求定制模块,用于:
预设所述待处理数据表的隐私保护程度;
所述距离量化模型,用于:
量化所述待处理数据表中记录之间的距离;
所述聚类映射分组模块,用于:
根据所述距离量化模型及所述隐私保护程度完成数据表记录的聚类映射,生成分组信息;
所述数据泛化处理模块,用于:
根据所述分组信息按照所述泛化规则进行泛化处理,形成待发布的匿名数据表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111020126.1A CN113743496B (zh) | 2021-09-01 | 2021-09-01 | 一种基于聚类映射的k-匿名数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111020126.1A CN113743496B (zh) | 2021-09-01 | 2021-09-01 | 一种基于聚类映射的k-匿名数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743496A true CN113743496A (zh) | 2021-12-03 |
CN113743496B CN113743496B (zh) | 2024-08-09 |
Family
ID=78734619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111020126.1A Active CN113743496B (zh) | 2021-09-01 | 2021-09-01 | 一种基于聚类映射的k-匿名数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743496B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611127A (zh) * | 2022-03-15 | 2022-06-10 | 湖南致坤科技有限公司 | 一种数据库数据安全管理系统 |
CN117349879A (zh) * | 2023-09-11 | 2024-01-05 | 江苏汉康东优信息技术有限公司 | 基于连续词袋模型的文本数据匿名化隐私保护方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106940777A (zh) * | 2017-02-16 | 2017-07-11 | 湖南宸瀚信息科技有限责任公司 | 一种基于敏感信息度量的身份信息隐私保护方法 |
CN113051619A (zh) * | 2021-04-30 | 2021-06-29 | 河南科技大学 | 一种基于k-匿名的中药处方数据隐私保护方法 |
-
2021
- 2021-09-01 CN CN202111020126.1A patent/CN113743496B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106940777A (zh) * | 2017-02-16 | 2017-07-11 | 湖南宸瀚信息科技有限责任公司 | 一种基于敏感信息度量的身份信息隐私保护方法 |
CN113051619A (zh) * | 2021-04-30 | 2021-06-29 | 河南科技大学 | 一种基于k-匿名的中药处方数据隐私保护方法 |
Non-Patent Citations (2)
Title |
---|
NAFEI ZHU 等: "Access Control for Privacy Protection for Dynamic and Correlated Databases", 2015 IEEE INTERNATIONAL CONFERENCE ON SMART CITY/SOCIALCOM/SUSTAINCOM TOGETHER WITH DATACOM 2015 AND SC2 2015 * |
何泾沙 等: "基于k 匿名的准标识符属性个性化实现算法研究", 技术研究, no. 10, pages 19 - 26 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611127A (zh) * | 2022-03-15 | 2022-06-10 | 湖南致坤科技有限公司 | 一种数据库数据安全管理系统 |
CN117349879A (zh) * | 2023-09-11 | 2024-01-05 | 江苏汉康东优信息技术有限公司 | 基于连续词袋模型的文本数据匿名化隐私保护方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113743496B (zh) | 2024-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106940777B (zh) | 一种基于敏感信息度量的身份信息隐私保护方法 | |
CN106021541B (zh) | 区分准标识符属性的二次k‑匿名隐私保护算法 | |
US11853329B2 (en) | Metadata classification | |
CN113743496B (zh) | 一种基于聚类映射的k-匿名数据处理方法及系统 | |
Yin et al. | An improved anonymity model for big data security based on clustering algorithm | |
CN109117669B (zh) | MapReduce相似连接查询的隐私保护方法及系统 | |
CN110378148B (zh) | 一种面向云平台的多域数据隐私保护方法 | |
Abbasi et al. | A clustering‐based anonymization approach for privacy‐preserving in the healthcare cloud | |
CN114092729B (zh) | 基于聚类匿名化与差分隐私保护的异构用电数据发布方法 | |
CN116450710B (zh) | 一种基于大数据的数据分析溯源方法及系统 | |
CN111859441A (zh) | 一种缺失数据的匿名方法、存储介质 | |
CN116186757A (zh) | 一种效用增强的条件特征选择差分隐私数据发布方法 | |
Dixit et al. | Refinement and evaluation of web session cluster quality | |
CN114564744A (zh) | 用于医疗健康档案管理系统的数据保护方法及装置 | |
Bhandari et al. | Comparative analysis of privacy-preserving data mining techniques | |
CN117235800B (zh) | 基于秘密规范的个性化隐私保护机制的数据查询保护方法 | |
CN117216109A (zh) | 一种多类型混合数据的数据查询方法、装置及存储介质 | |
CN116938593A (zh) | 基于隐私计算与保护的数据安全共享方法及数据管理系统 | |
CN111967045A (zh) | 一种基于大数据的数据发布隐私保护算法及系统 | |
Koutsonikola et al. | A fuzzy bi-clustering approach to correlate web users and pages | |
Prakash et al. | Haphazard, enhanced haphazard and personalised anonymisation for privacy preserving data mining on sensitive data sources | |
CN110990869B (zh) | 一种应用于隐私保护的电力大数据脱敏方法 | |
CN113378223B (zh) | 基于双重编码和聚类映射的k-匿名数据处理方法及系统 | |
Azman | Efficient identity matching using static pruning q-gram indexing approach | |
CN111767567A (zh) | 社交信息安全管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |