CN113378223B - 基于双重编码和聚类映射的k-匿名数据处理方法及系统 - Google Patents
基于双重编码和聚类映射的k-匿名数据处理方法及系统 Download PDFInfo
- Publication number
- CN113378223B CN113378223B CN202110665273.8A CN202110665273A CN113378223B CN 113378223 B CN113378223 B CN 113378223B CN 202110665273 A CN202110665273 A CN 202110665273A CN 113378223 B CN113378223 B CN 113378223B
- Authority
- CN
- China
- Prior art keywords
- data table
- attribute
- processed
- generalization
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 82
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000008569 process Effects 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000013139 quantization Methods 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 24
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种基于双重编码和聚类映射的K‑匿名数据处理方法及系统,方法包括:对待发布数据表进行预处理,对待处理数据表设定隐私保护阈值;建立泛化树并预定义泛化规则,定义重编码规则;对待处理数据表中的准标识属性进行重编码,形成编码文件;根据待处理数据表构建聚类质心,计算编码文件中每个记录与聚类质心的距离量化信息,将每个记录依次映射至聚类空间中,生成分组信息且满足隐私保护阈值;以分组为单位对准标识属性按照泛化规则进行信息损失量最小的泛化操作,并将结果更新至待处理数据表中。通过本发明的技术方案,在保留匿名数据效用的同时大大提高整个匿名化处理过程的效率,降低了数据发布过程中用户隐私泄露的风险。
Description
技术领域
本发明涉及数据隐私保护技术领域,尤其涉及一种基于双重编码和聚类映射的K-匿名数据处理方法以及一种基于双重编码和聚类映射的K-匿名数据处理系统。
背景技术
近年来,随着互联网、数据库等相关技术的快速发展,人们逐步迎来信息时代的到来。实时的网络资源、便捷的网络通讯、高速的信息传播介质使得人们的数据信息被一些机构或数据挖掘工具进行收集和分析,那么保护个人的隐私信息就显得极为重要。数据是信息时代一个非常重要的资源,人们对数据进行访问、共享、知识获取等操作使得数据拥有者逐渐加大对数据的隐私保护程度。但是出于研究、经营等目的往往需要数据拥有者对存储在服务器上的数据进行公开发布,恶意用户会根据发布的数据与其他外部信息结合发起链接攻击从而推断出用户个人的敏感信息。即便是数据拥有者现如今也不能肆意的公开发布用户原始数据信息,这难免会对用户的隐私造成威胁。
数据发布中实现隐私保护的技术主要有分组技术、加密技术以及失真技术,其中较为常用的是分组技术。然而,一些实时的数据发布系统采用传统的分组技术会面临数据可用性低和执行效率差两大问题。首先,一般的分组技术大多关注个人隐私信息的安全很少关注匿名数据的可用性情况。对于一些正规机构或组织来说,用户的数据信息仅仅用来进行挖掘模型或数据分析等研究目的,通过分组技术实现的数据K-匿名化处理极大程度上对数据造成了大量的信息损失,这使得基于分组技术匿名化处理后的信息实际效用大大降低,基于此进行数据分析或挖掘模型时会造成严重的偏差,准确性极差。其次,对于数据发布系统来说执行效率是极为重要的,而一些传统的匿名化技术的低效率会造成整个数据发布过程时间过长,降低了系统的响应时间。
发明内容
针对上述问题,本发明提供了一种基于双重编码和聚类映射的K-匿名数据处理方法及系统,通过重编码技术对待发布数据表进行处理,量化数据表中各记录的位置信息,完成数据表中各记录的空间映射工作,采用距离量化将待处理数据表中的记录在映射空间中彼此之间的距离信息度量出来,并将距离信息导入聚类映射过程,用以后续对数据表的泛化处理过程,从而降低在数据发布过程中用户隐私泄露的风险。在数据匿名化处理过程中,数据拥有者可以根据预设的隐私保护阈值,通过双重编码和聚类映射得到相对应的匿名化数据并进行公开发布,匿名处理更准确且更高效,采用重编码以简化距离量化过程,能够在保留匿名数据效用的同时大大提高整个匿名化处理过程的效率。
为实现上述目的,本发明提供了一种基于双重编码和聚类映射的K-匿名数据处理方法,包括:
获取待发布数据表,并对所述待发布数据表进行预处理,仅保留所述待发布数据表中的准标识属性和敏感属性,以形成待处理数据表;
基于隐私保护需求对所述待处理数据表设定隐私保护阈值;
基于所述待处理数据表中准标识属性的分类型属性建立泛化树,并预定义泛化规则;
根据所述泛化树的层次结构信息定义对应的重编码规则;
根据所述重编码规则对所述待处理数据表中的准标识属性进行重编码,形成编码文件;
根据所述待处理数据表构建聚类质心,并根据距离量化模型计算所述编码文件中每个记录与聚类质心的距离量化信息,按照所述距离量化信息将每个记录依次映射至聚类空间中,生成分组信息,且每个分组中的记录个数均满足所述隐私保护阈值;
基于所述分组信息,以分组为单位对所述待处理数据表中的准标识属性按照所述泛化规则进行信息损失量最小的泛化操作,并将泛化操作的结果更新至所述待处理数据表中,实现所述待发布数据表的匿名化处理。
在上述技术方案中,优选地,在对所述待处理数据表进行重编码之前,还包括:
对所述待处理数据表进行检查,判断任意一条记录在准标识属性序列上取值相同的个数是否不低于所述隐私保护阈值;
若低于,则继续进行对所述待处理数据表的重编码,若不低于,则将所述待处理数据表直接进行数据发布。
在上述技术方案中,优选地,所述对所述待发布数据表进行预处理,仅保留所述待发布数据表中的准标识属性和敏感属性,以形成待处理数据表的具体过程包括:
根据所述待发布数据表中属性列词条信息,划分标识属性、准标识属性、敏感属性和其他属性;
删除能够直接区分所述待发布数据表中个体身份的标识属性,忽略其他属性;
根据数据发布场景仅保留所述待发布数据表中的准标识属性和敏感属性,形成待处理数据表。
在上述技术方案中,优选地,所述基于所述待处理数据表中准标识属性的分类型属性建立泛化树,并预定义泛化规则的具体过程包括:
所述待处理数据表中准标识属性包括数值型属性和分类型属性,所述数值型属性不需要预先定义泛化规则,所述数值型属性的泛化结果是由动态获取得到;
按照所述分类型属性的语义建立泛化树,其中,所述泛化树的根节点至叶子节点的属性值在语义分级上由抽象到具体;
根据所述泛化树预定义泛化操作的泛化规则。
在上述技术方案中,优选地,所述根据所述泛化树的层次结构信息定义对应的重编码规则的具体过程包括:
确定所述泛化树的层级高度,对于层级高度为2的泛化树,每个叶子节点对应一个编码位,且叶子节点对应下的编码位的数值为1,其余编码位的数值为0;
对于层级高度大于2的泛化树,彼此存在兄弟关系的叶子节点对应同一个编码位且重编码相同,且叶子节点对应下的编码位的数值为当前叶子节点的父节点所包含的叶子节点数量,其余编码位的数值为0;
与其他叶子节点不存在兄弟关系的叶子节点各占据一个编码位,且叶子节点下对应编码位的数值为1,其余编码位的数值为0。
在上述技术方案中,优选地,所述根据所述重编码规则对所述待处理数据表中的准标识属性进行重编码形成编码文件的具体过程包括:
遍历所述待处理数据表中的每条记录,对每条记录中的准标识属性根据所述重编码规则进行重编码,将每条记录关于分类型属性的属性值转化为具有特定含义的数值信息,所述待处理数据表中所有记录经重编码后的准标识属性序列值形成所述编码文件,其中,所述编码文件中的每一条重编码记录与所述待处理数据表中的记录一一对应。
在上述技术方案中,优选地,所述根据距离量化模型计算所述编码文件中每个记录与聚类质心的距离量化信息,按照所述距离量化信息将每个记录依次映射至聚类空间中,生成分组信息的具体过程包括:
根据所述隐私保护阈值K确定聚类个数;
根据所述待处理数据表中每个准标识属性维度上的高频值构成的序列值作为聚类质心,并对所述聚类质心进行重编码操作;
量化编码文件中的所有未映射记录与所述聚类质心的距离,并以每个准标识属性列对应距离的累加作为任意两个重编码记录之间的距离;其中,对于数值型属性,采用两个数值之间的差值占当前属性列的域值的比率作为距离量化信息;对于分类型属性,利用重编码得到的矢量信息进行判断,若两个重编码后的矢量结果不同,则当前两个属性值之间的距离为两个矢量中所有数值之和与当前分类型属性的叶子节点总数的比率,若两个重编码后的矢量结果相同,则当前两个属性值之间距离为0;
根据聚类质心与所有未映射记录之间的距离信息,确定距离聚类质心最近的K条记录并映射为一个聚类,记录唯一编号信息存储于分组信息文件中,选择距离当前聚类质心最近的第K+1条重编码记录作为下一迭代的聚类质心,并将完成聚类映射的K条记录由未映射记录中删除,更新未映射记录,迭代此过程,直至完成所有聚类的映射;
根据所述编码文件中剩余的未映射记录,迭代计算每一条未映射记录与所有聚类质心的距离,选择加入距离最近的聚类以完成映射,并将映射记录的唯一编号信息存储于对应聚类的分组信息中,更新分组信息。
在上述技术方案中,优选地,所述基于所述分组信息,以分组为单位对所述待处理数据表中的准标识属性按照所述泛化规则进行信息损失量最小的泛化操作的具体过程包括:
根据预定义的所述泛化规则,以分组为单位对所述待处理数据表中的记录在准标识属性上进行信息损失量最小的泛化操作;
对于数值型准标识属性,以分组中所有记录在该属性上构成的域值空间作为匿名化处理结果;
对于分类型准标识属性,以分组中所有记录在该属性对应泛化树的最小公共父节点作为匿名化处理结果;
对所述待处理数据表中的准标识属性更新匿名化处理结果,形成匿名化处理后的所述待发布匿名数据表。
本发明还提出一种基于双重编码和聚类映射的K-匿名数据处理系统,应用如上述技术方案中任一项提出的基于双重编码和聚类映射的K-匿名数据处理方法,包括:
数据表预处理模块,用于对所获取的待发布数据表进行预处理,仅保留所述待发布数据表中的准标识属性和敏感属性,以形成待处理数据表;
隐私需求定制模块,用于基于隐私保护需求对所述待处理数据表设定隐私保护阈值;
泛化规则预定义模块,用于基于所述待处理数据表中准标识属性的分类型属性建立泛化树,并预定义泛化规则;
重编码规则预定义模块,用于根据所述泛化树的层次结构信息定义对应的重编码规则;
重编码模块,用于根据所述重编码规则对所述待处理数据表中的准标识属性进行重编码,形成编码文件;
聚类映射模块,用于根据距离量化模型计算所述编码文件中每个记录与聚类质心的距离量化信息,按照所述距离量化信息将每个记录依次映射至聚类空间中,生成分组信息,且每个分组中的记录个数均满足所述隐私保护阈值;
泛化编码模块,用于基于所述分组信息,以分组为单位对所述待处理数据表中的准标识属性按照所述泛化规则进行信息损失量最小的泛化操作,并将泛化操作的结果更新至所述待处理数据表中,实现所述待发布数据表的匿名化处理。
在上述技术方案中,优选地,所述聚类映射模块包括距离量化模块和聚类分组模块,
所述距离量化模块具体用于:
根据所述隐私保护阈值K确定聚类个数;
根据所述待处理数据表中每个准标识属性维度上的高频值构成的序列值作为聚类质心,并对所述聚类质心进行重编码操作;
量化编码文件中的所有未映射记录与所述聚类质心的距离,并以每个准标识属性列对应距离的累加作为任意两个重编码记录之间的距离;其中,对于数值型属性,采用两个数值之间的差值占当前属性列的域值的比率作为距离量化信息;对于分类型属性,利用重编码得到的矢量信息进行判断,若两个重编码后的矢量结果不同,则当前两个属性值之间的距离为两个矢量中所有数值之和与当前分类型属性的叶子节点总数的比率,若两个重编码后的矢量结果相同,则当前两个属性值之间距离为0;
所述聚类分组模块具体用于:
根据聚类质心与所有未映射记录之间的距离信息,确定距离聚类质心最近的K条记录并映射为一个聚类,记录唯一编号信息存储于分组信息文件中,选择距离当前聚类质心最近的第K+1条重编码记录作为下一迭代的聚类质心,并将完成聚类映射的K条记录由未映射记录中删除,更新未映射记录,迭代此过程,直至完成所有聚类的映射;
根据所述编码文件中剩余的未映射记录,迭代计算每一条未映射记录与所有聚类质心的距离,选择加入距离最近的聚类以完成映射,并将映射记录的唯一编号信息存储于对应聚类的分组信息中,更新分组信息。
与现有技术相比,本发明的有益效果为:通过重编码技术对待发布数据表进行处理,量化数据表中各记录的位置信息,完成数据表中各记录的空间映射工作,采用距离量化将待处理数据表中的记录在映射空间中彼此之间的距离信息度量出来,并将距离信息导入聚类映射过程,用以后续对数据表的泛化处理过程,从而降低在数据发布过程中用户隐私泄露的风险。在数据匿名化处理过程中,数据拥有者可以根据预设的隐私保护阈值,通过双重编码和聚类映射得到相对应的匿名化数据并进行公开发布,匿名处理更准确且更高效,采用重编码以简化距离量化过程,能够在保留匿名数据效用的同时大大提高整个匿名化处理过程的效率。
附图说明
图1为本发明一种实施例公开的基于双重编码和聚类映射的K-匿名数据处理方法的工作处理流程示意图;
图2为本发明一种实施例公开的基于双重编码和聚类映射的K-匿名数据处理方法的实施流程示意图;
图3为本发明一种实施例公开的基于双重编码和聚类映射的K-匿名数据处理系统的模块示意图。
图中,各组件与附图标记之间的对应关系为:
11.数据表预处理模块,12.隐私需求定制模块,13.泛化规则预定义模块,14.重编码规则预定义模块,15.重编码模块,16.聚类映射模块,17.泛化编码模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1和图2所示,根据本发明提供的一种基于双重编码和聚类映射的K-匿名数据处理方法,包括:
获取待发布数据表,并对待发布数据表进行预处理,仅保留待发布数据表中的准标识属性和敏感属性,以形成待处理数据表;
基于隐私保护需求对待处理数据表设定隐私保护阈值;
基于待处理数据表中准标识属性的分类型属性建立泛化树,并预定义泛化规则;
根据泛化树的层次结构信息定义对应的重编码规则;
根据重编码规则对待处理数据表中的准标识属性进行重编码,形成编码文件;
根据待处理数据表构建聚类质心,并根据距离量化模型计算编码文件中每个记录与聚类质心的距离量化信息,按照距离量化信息将每个记录依次映射至聚类空间中,生成分组信息,且每个分组中的记录个数均满足隐私保护阈值;
基于分组信息,以分组为单位对待处理数据表中的准标识属性按照泛化规则进行信息损失量最小的泛化操作,并将泛化操作的结果更新至待处理数据表中,实现待发布数据表的匿名化处理。
在该实施例中,通过重编码技术对待发布数据表进行处理,量化数据表中各记录的位置信息,完成数据表中各记录的空间映射工作,采用距离量化将待处理数据表中的记录在映射空间中彼此之间的距离信息度量出来,并将距离信息导入聚类映射过程,用以后续对数据表的泛化处理过程,从而降低在数据发布过程中用户隐私泄露的风险。在数据匿名化处理过程中,数据拥有者可以根据预设的隐私保护阈值,通过双重编码和聚类映射得到相对应的匿名化数据并进行公开发布,匿名处理更准确且更高效,采用重编码以简化距离量化过程,能够在保留匿名数据效用的同时大大提高整个匿名化处理过程的效率。
在上述实施例中,优选地,在对待处理数据表进行重编码之前,还包括:
对待处理数据表进行检查,判断任意一条记录在准标识属性序列上取值相同的个数是否不低于隐私保护阈值;
若低于,则表示待处理数据表不满足设定的隐私保护程度,将继续进行对待处理数据表的重编码,若不低于,则将待处理数据表直接进行数据发布。
在上述实施例中,优选地,对待发布数据表进行预处理,仅保留待发布数据表中的准标识属性和敏感属性,以形成待处理数据表的具体过程包括:
在日常生活中,服务器接收来自不同信息源的数据将存储在数据库中不同的关系数据表中,例如,对于来自医疗健康信息源的用户数据将存储在数据库中的医疗信息数据表中,以便数据发布者能够根据待发布数据表中属性列词条信息,划分标识属性、准标识属性、敏感属性和其他属性;
在数据预处理过程中,直接删除能够直接区分待发布数据表中个体身份的标识属性,直接忽略其他属性;根据数据发布场景仅保留待发布数据表中的准标识属性和敏感属性,形成待处理数据表。
在上述实施例中,通过待处理数据表中信息的重要程度确定数据表的隐私保护阈值K。隐私保护阈值是个具体的数值,设定其值是在2到表中记录条数之间的整数,表示待发布数据表承受链接攻击的能力。在日常生活中,不同数据表对不同方面隐私的保护程度也十分不同。以“医疗信息表”和“选民信息表”为例,前者较为关注用户的疾病隐私,在公开发布医疗信息表时通常会提高数据表的隐私保护阈值,以加大对发布医疗数据的隐私保护程度;对于后者来说较为关注用户的身份信息,在预处理待发布数据表阶段就已删除选民信息表中能唯一识别用户身份信息的标识属性,如身份证号、手机号等,因此数据发布者设定选民信息表的隐私保护阈值不及前者。设定的阈值K越大说明对该数据表的隐私保护程度就越大。
例如,数据拥有者设定隐私保护程度K为2,在数据表匿名化过程结束后,匿名表在准标识属性序列上取值相同的记录条数至少为2,那么,攻击者在准标识属性上与外部信息结合准确识别个体身份的概率就降为0.5。隐私保护程度会用来决定分组中最少所包含的记录个数。
在上述实施例中,优选地,基于待处理数据表中准标识属性的分类型属性建立泛化树,并预定义泛化规则的具体过程包括:
待处理数据表中准标识属性包括数值型属性和分类型属性,数值型属性不需要预先定义泛化规则,数值型属性的泛化结果是由动态获取得到;
按照分类型属性的语义建立泛化树,其中,泛化树的根节点至叶子节点的属性值在语义分级上由抽象到具体,位于根节点的属性值可用性最低,位于叶子节点的属性值可用性最高,例如“性别”属性,“男”、“女”彼此为兄弟节点,又是“性别”属性对应泛化树的叶子节点,“男”、“女”的父节点为“性别”,那么“性别”即是该泛化树的根节点;
根据泛化树预定义泛化操作的泛化规则,使得各个属性值可以泛化为语义更抽象、范围更广的属性值。例如,朝阳区可以用“北京”取代,也可以用语义范围更广的“中国”取代。
在上述实施例中,优选地,根据泛化树的层次结构信息定义对应的重编码规则的具体过程包括:
根据属性泛化树高度分别定义重编码规则,首先,确定泛化树的层级高度,对于层级高度为2的泛化树,编码长度为叶子节点的个数,即每个叶子节点对应一个编码位,编码规则为:叶子节点对应下的编码位的数值为1,其余编码位的数值为0;例如,“性别”属性的叶子节点分别为“女”和“男”,对应两个编码位,属性值为“女”可以重编码为“[1,0]”,相应的,“男”可以重编码为“[0,1]”。例如,以树(1,(2,3,4))为例,编码长度为3,叶子节点2、3、4分别重编码为“[1,0,0]”、“[0,1,0]”和“[0,0,1]”。
对于层级高度大于2的泛化树,彼此存在兄弟关系的叶子节点对应同一个编码位且重编码相同,编码规则为:
叶子节点对应下的编码位的数值为当前叶子节点的父节点所包含的叶子节点数量,其余编码位的数值为0;
与其他叶子节点不存在兄弟关系的叶子节点各占据一个编码位,且叶子节点下对应编码位的数值为1,其余编码位的数值为0。
以树(1,(2(4,5),3))为例,节点3、4、5为叶子节点,其中节点4和5为兄弟节点二者编码位相同,节点3占一个编码位,总编码长度为2,节点4和5的重编码均为“[2,0]”,节点3的重编码为“[0,1]”。
在上述实施例中,优选地,根据重编码规则对待处理数据表中的准标识属性进行重编码形成编码文件的具体过程包括:
遍历待处理数据表中的每条记录,对每条记录中的准标识属性根据重编码规则进行重编码,将每条记录关于分类型属性的属性值转化为具有特定含义的数值信息,待处理数据表中所有记录经重编码后的准标识属性序列值形成编码文件,其中,编码文件中的每一条重编码记录与待处理数据表中的记录一一对应。
在上述实施例中,优选地,针对编码文件中的记录进行聚类映射,根据编码文件信息及隐私保护阈值K进行操作准备,系统接收编码文件开始聚类映射之前的准备工作,将编码文件中的记录按照距离量化信息依次映射到聚类空间中,按照相应的规则形成记录的分组信息,确保每个分组中包含的记录个数都将满足设定的隐私保护阈值。具体过程包括:
根据隐私保护阈值K确定最终形成的聚类个数;其中,聚类个数是编码文件中记录数除以隐私保护阈值K的最大整除数;
确定聚类质心,根据待处理数据表中每个准标识属性维度上的高频值构成的序列值作为聚类质心,并对聚类质心进行重编码操作,使得其数据类型与编码文件中的记录保持一致;
量化编码文件中的所有未映射记录与聚类质心的距离,并以每个准标识属性列对应距离的累加作为任意两个重编码记录之间的距离;其中,对于数值型属性,采用两个数值之间的差值占当前属性列的域值的比率作为距离量化信息;对于分类型属性,利用重编码得到的矢量信息进行判断,若两个重编码后的矢量结果不同,则当前两个属性值之间的距离为两个矢量中所有数值之和与当前分类型属性的叶子节点总数的比率,若两个重编码后的矢量结果相同,则当前两个属性值之间距离为0;例如,重编码记录r1=(23,[1,0,0])和r2=(29,[0,0,3]),其中,第一个数值属性的域值为80,第二个分类型属性的叶子节点数为6,那么,r1和r2之间的距离为(29-23)/80+(1+3)/6。
根据聚类质心与所有未映射记录之间的距离信息,确定距离聚类质心最近的K条记录并映射为一个聚类,确保每个分组包含的记录个数满足设定的隐私保护阈值,记录唯一编号信息并存储于分组信息文件中;选择距离当前聚类质心最近的第K+1条重编码记录作为下一迭代的聚类质心,并将完成聚类映射的K条记录由未映射记录中删除,更新未映射记录;迭代聚类映射过程,直至完成所有聚类的映射;
检查分组信息,根据编码文件中剩余的未映射记录,计算每一条未映射记录与所有聚类质心的距离,选择加入距离最近的聚类以完成映射,并将映射记录的唯一编号信息存储于对应聚类的分组信息中,更新分组信息。至此,整个聚类映射过程完成。
在上述实施例中,优选地,基于分组信息,以分组为单位对待处理数据表中的准标识属性按照泛化规则进行信息损失量最小的泛化操作的具体过程包括:
根据预定义的泛化规则,以分组为单位对待处理数据表中的记录在准标识属性上进行信息损失量最小的泛化操作;
对于数值型准标识属性,以分组中所有记录在该属性上构成的域值空间作为匿名化处理结果;例如,“年龄”属性,某分组中的所有记录在该属性的最大值和最小值分别为45和23,那么该分组中所有记录在该“年龄”属性上的值将更新为“[23-45]”;
对于分类型准标识属性,以分组中所有记录在该属性对应泛化树的最小公共父节点作为匿名化处理结果;
对待处理数据表中的准标识属性更新匿名化处理结果,形成匿名化处理后的待发布匿名数据表,完成泛化编码阶段。
如图3所示,本发明还提出一种基于双重编码和聚类映射的K-匿名数据处理系统,应用如上述实施例中任一项提出的基于双重编码和聚类映射的K-匿名数据处理方法,包括:
数据表预处理模块11,用于对所获取的待发布数据表进行预处理,仅保留待发布数据表中的准标识属性和敏感属性,以形成待处理数据表;
隐私需求定制模块12,用于基于隐私保护需求对待处理数据表设定隐私保护阈值;
泛化规则预定义模块13,用于基于待处理数据表中准标识属性的分类型属性建立泛化树,并预定义泛化规则;
重编码规则预定义模块14,用于根据泛化树的层次结构信息定义对应的重编码规则;
重编码模块15,用于根据重编码规则对待处理数据表中的准标识属性进行重编码,形成编码文件;
聚类映射模块16,用于根据距离量化模型计算编码文件中每个记录与聚类质心的距离量化信息,按照距离量化信息将每个记录依次映射至聚类空间中,生成分组信息,且每个分组中的记录个数均满足隐私保护阈值;
泛化编码模块17,用于基于分组信息,以分组为单位对待处理数据表中的准标识属性按照泛化规则进行信息损失量最小的泛化操作,并将泛化操作的结果更新至待处理数据表中,实现待发布数据表的匿名化处理。
在该实施例中,通过重编码技术对待发布数据表进行处理,量化数据表中各记录的位置信息,完成数据表中各记录的空间映射工作,采用距离量化将待处理数据表中的记录在映射空间中彼此之间的距离信息度量出来,并将距离信息导入聚类映射过程,用以后续对数据表的泛化处理过程,从而降低在数据发布过程中用户隐私泄露的风险。在数据匿名化处理过程中,数据拥有者可以根据预设的隐私保护阈值,通过双重编码和聚类映射得到相对应的匿名化数据并进行公开发布,匿名处理更准确且更高效,采用重编码以简化距离量化过程,能够在保留匿名数据效用的同时大大提高整个匿名化处理过程的效率。
在上述实施例中,优选地,聚类映射模块16包括距离量化模块161和聚类分组模块162,
距离量化模块161具体用于:
根据隐私保护阈值K确定聚类个数;
根据待处理数据表中每个准标识属性维度上的高频值构成的序列值作为聚类质心,并对聚类质心进行重编码操作;
量化编码文件中的所有未映射记录与聚类质心的距离,并以每个准标识属性列对应距离的累加作为任意两个重编码记录之间的距离;其中,对于数值型属性,采用两个数值之间的差值占当前属性列的域值的比率作为距离量化信息;对于分类型属性,利用重编码得到的矢量信息进行判断,若两个重编码后的矢量结果不同,则当前两个属性值之间的距离为两个矢量中所有数值之和与当前分类型属性的叶子节点总数的比率,若两个重编码后的矢量结果相同,则当前两个属性值之间距离为0;
聚类分组模块162具体用于:
根据聚类质心与所有未映射记录之间的距离信息,确定距离聚类质心最近的K条记录并映射为一个聚类,记录唯一编号信息存储于分组信息文件中,选择距离当前聚类质心最近的第K+1条重编码记录作为下一迭代的聚类质心,并将完成聚类映射的K条记录由未映射记录中删除,更新未映射记录,迭代此过程,直至完成所有聚类的映射;
根据编码文件中剩余的未映射记录,迭代计算每一条未映射记录与所有聚类质心的距离,选择加入距离最近的聚类以完成映射,并将映射记录的唯一编号信息存储于对应聚类的分组信息中,更新分组信息。
根据上述实施例中提出的基于双重编码和聚类映射的K-匿名数据处理系统,各模块所实现的功能与上述实施例中提出的基于双重编码和聚类映射的K-匿名数据处理方法中各步骤的实现方法相对应,在此不再赘述。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于双重编码和聚类映射的K-匿名数据处理方法,其特征在于,包括:
获取待发布数据表,并对所述待发布数据表进行预处理,仅保留所述待发布数据表中的准标识属性和敏感属性,以形成待处理数据表;
基于隐私保护需求对所述待处理数据表设定隐私保护阈值;
基于所述待处理数据表中准标识属性的分类型属性建立泛化树,并预定义泛化规则;
根据所述泛化树的层次结构信息定义对应的重编码规则,具体过程包括:
确定所述泛化树的层级高度,对于层级高度为2的泛化树,每个叶子节点对应一个编码位,且叶子节点对应下的编码位的数值为1,其余编码位的数值为0;
对于层级高度大于2的泛化树,彼此存在兄弟关系的叶子节点对应同一个编码位且重编码相同,且叶子节点对应下的编码位的数值为当前叶子节点的父节点所包含的叶子节点数量,其余编码位的数值为0;
与其他叶子节点不存在兄弟关系的叶子节点各占据一个编码位,且叶子节点下对应编码位的数值为1,其余编码位的数值为0;
根据所述重编码规则对所述待处理数据表中的准标识属性进行重编码,形成编码文件,具体过程包括:
遍历所述待处理数据表中的每条记录,对每条记录中的准标识属性根据所述重编码规则进行重编码,将每条记录关于分类型属性的属性值转化为预设格式的数值信息,所述待处理数据表中所有记录经重编码后的准标识属性序列值形成所述编码文件,其中,所述编码文件中的每一条重编码记录与所述待处理数据表中记录一一对应;
根据所述待处理数据表构建聚类质心,并根据距离量化模型计算所述编码文件中每个记录与聚类质心的距离量化信息,按照所述距离量化信息将每个记录依次映射至聚类空间中,生成分组信息,且每个分组中的记录个数均满足所述隐私保护阈值,具体过程包括:
根据所述隐私保护阈值K确定聚类个数;
根据所述待处理数据表中每个准标识属性维度上的高频值构成的序列值作为聚类质心,并对所述聚类质心进行重编码操作;
量化编码文件中的所有未映射记录与所述聚类质心的距离,并以每个准标识属性列对应距离的累加作为任意两个重编码记录之间的距离;
其中,对于数值型属性,采用两个数值之间的差值占当前属性列的域值的比率作为距离量化信息;对于分类型属性,利用重编码得到的矢量信息进行判断,若两个重编码后的矢量结果不同,则当前两个属性值之间的距离为两个矢量中所有数值之和与当前分类型属性的叶子节点总数的比率,若两个重编码后的矢量结果相同,则当前两个属性值之间距离为0;
根据聚类质心与所有未映射记录之间的距离信息,确定距离聚类质心最近的K条记录并映射为一个聚类,记录唯一编号信息存储于分组信息文件中,选择距离当前聚类质心最近的第K+1条重编码记录作为下一迭代的聚类质心,并将完成聚类映射的K条记录由未映射记录中删除,更新未映射记录,迭代此过程,直至完成所有聚类的映射;
根据所述编码文件中剩余的未映射记录,迭代计算每一条未映射记录与所有聚类质心的距离,选择加入距离最近的聚类以完成映射,并将映射记录的唯一编号信息存储于对应聚类的分组信息中,更新分组信息;基于所述分组信息,以分组为单位对所述待处理数据表中的准标识属性按照所述泛化规则进行信息损失量最小的泛化操作,并将泛化操作的结果更新至所述待处理数据表中,实现所述待发布数据表的匿名化处理。
2.根据权利要求1所述的基于双重编码和聚类映射的K-匿名数据处理方法,其特征在于,在对所述待处理数据表进行重编码之前,还包括:
对所述待处理数据表进行检查,判断任意一条记录在准标识属性序列上取值相同的个数是否不低于所述隐私保护阈值;
若低于,则继续进行对所述待处理数据表的重编码,若不低于,则将所述待处理数据表直接进行数据发布。
3.根据权利要求1或2所述的基于双重编码和聚类映射的K-匿名数据处理方法,其特征在于,所述对所述待发布数据表进行预处理,仅保留所述待发布数据表中的准标识属性和敏感属性,以形成待处理数据表的具体过程包括:
根据所述待发布数据表中属性列词条信息,划分标识属性、准标识属性、敏感属性和其他属性;
删除能够直接区分所述待发布数据表中个体身份的标识属性,忽略其他属性;
根据数据发布场景仅保留所述待发布数据表中的准标识属性和敏感属性,形成待处理数据表。
4.根据权利要求3所述的基于双重编码和聚类映射的K-匿名数据处理方法,其特征在于,所述基于所述待处理数据表中准标识属性的分类型属性建立泛化树,并预定义泛化规则的具体过程包括:
所述待处理数据表中准标识属性包括数值型属性和分类型属性,所述数值型属性不需要预先定义泛化规则,所述数值型属性的泛化结果是由动态获取得到;
按照所述分类型属性的语义建立泛化树,其中,所述泛化树的根节点至叶子节点的属性值在语义分级上由抽象到具体;
根据所述泛化树预定义泛化操作的泛化规则。
5.根据权利要求1所述的基于双重编码和聚类映射的K-匿名数据处理方法,其特征在于,所述基于所述分组信息,以分组为单位对所述待处理数据表中的准标识属性按照所述泛化规则进行信息损失量最小的泛化操作的具体过程包括:
根据预定义的所述泛化规则,以分组为单位对所述待处理数据表中的记录在准标识属性上进行信息损失量最小的泛化操作;
对于数值型准标识属性,以分组中所有记录在该属性上构成的域值空间作为匿名化处理结果;
对于分类型准标识属性,以分组中所有记录在该属性对应泛化树的最小公共父节点作为匿名化处理结果;
对所述待处理数据表中的准标识属性更新匿名化处理结果,形成匿名化处理后的待发布匿名数据表。
6.一种基于双重编码和聚类映射的K-匿名数据处理系统,应用如权利要求1至5中任一项所述的基于双重编码和聚类映射的K-匿名数据处理方法,其特征在于,包括:
数据表预处理模块,用于对所获取的待发布数据表进行预处理,仅保留所述待发布数据表中的准标识属性和敏感属性,以形成待处理数据表;
隐私需求定制模块,用于基于隐私保护需求对所述待处理数据表设定隐私保护阈值;
泛化规则预定义模块,用于基于所述待处理数据表中准标识属性的分类型属性建立泛化树,并预定义泛化规则;
重编码规则预定义模块,用于根据所述泛化树的层次结构信息定义对应的重编码规则;
重编码模块,用于根据所述重编码规则对所述待处理数据表中的准标识属性进行重编码,形成编码文件;
聚类映射模块,用于根据距离量化模型计算所述编码文件中每个记录与聚类质心的距离量化信息,按照所述距离量化信息将每个记录依次映射至聚类空间中,生成分组信息,且每个分组中的记录个数均满足所述隐私保护阈值;
泛化编码模块,用于基于所述分组信息,以分组为单位对所述待处理数据表中的准标识属性按照所述泛化规则进行信息损失量最小的泛化操作,并将泛化操作的结果更新至所述待处理数据表中,实现所述待发布数据表的匿名化处理;
所述聚类映射模块包括距离量化模块和聚类分组模块,
所述距离量化模块具体用于:
根据所述隐私保护阈值K确定聚类个数;
根据所述待处理数据表中每个准标识属性维度上的高频值构成的序列值作为聚类质心,并对所述聚类质心进行重编码操作;
量化编码文件中的所有未映射记录与所述聚类质心的距离,并以每个准标识属性列对应距离的累加作为任意两个重编码记录之间的距离;其中,对于数值型属性,采用两个数值之间的差值占当前属性列的域值的比率作为距离量化信息;对于分类型属性,利用重编码得到的矢量信息进行判断,若两个重编码后的矢量结果不同,则当前两个属性值之间的距离为两个矢量中所有数值之和与当前分类型属性的叶子节点总数的比率,若两个重编码后的矢量结果相同,则当前两个属性值之间距离为0;
所述聚类分组模块具体用于:
根据聚类质心与所有未映射记录之间的距离信息,确定距离聚类质心最近的K条记录并映射为一个聚类,记录唯一编号信息存储于分组信息文件中,选择距离当前聚类质心最近的第K+1条重编码记录作为下一迭代的聚类质心,并将完成聚类映射的K条记录由未映射记录中删除,更新未映射记录,迭代此过程,直至完成所有聚类的映射;
根据所述编码文件中剩余的未映射记录,迭代计算每一条未映射记录与所有聚类质心的距离,选择加入距离最近的聚类以完成映射,并将映射记录的唯一编号信息存储于对应聚类的分组信息中,更新分组信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110665273.8A CN113378223B (zh) | 2021-06-16 | 2021-06-16 | 基于双重编码和聚类映射的k-匿名数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110665273.8A CN113378223B (zh) | 2021-06-16 | 2021-06-16 | 基于双重编码和聚类映射的k-匿名数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378223A CN113378223A (zh) | 2021-09-10 |
CN113378223B true CN113378223B (zh) | 2023-12-26 |
Family
ID=77574582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110665273.8A Active CN113378223B (zh) | 2021-06-16 | 2021-06-16 | 基于双重编码和聚类映射的k-匿名数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378223B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358116A (zh) * | 2017-06-29 | 2017-11-17 | 华中科技大学 | 一种多敏感属性数据发布中的隐私保护方法 |
CN109815740A (zh) * | 2019-02-19 | 2019-05-28 | 陕西艾特信息化工程咨询有限责任公司 | 一种基于准标识属性泛化层高度的k-匿名隐私保护方法 |
CN110555316A (zh) * | 2019-08-15 | 2019-12-10 | 石家庄铁道大学 | 基于聚类匿名的隐私保护表数据共享算法 |
-
2021
- 2021-06-16 CN CN202110665273.8A patent/CN113378223B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358116A (zh) * | 2017-06-29 | 2017-11-17 | 华中科技大学 | 一种多敏感属性数据发布中的隐私保护方法 |
CN109815740A (zh) * | 2019-02-19 | 2019-05-28 | 陕西艾特信息化工程咨询有限责任公司 | 一种基于准标识属性泛化层高度的k-匿名隐私保护方法 |
CN110555316A (zh) * | 2019-08-15 | 2019-12-10 | 石家庄铁道大学 | 基于聚类匿名的隐私保护表数据共享算法 |
Also Published As
Publication number | Publication date |
---|---|
CN113378223A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019200752A1 (zh) | 基于语义理解的兴趣点查询方法、装置和计算机设备 | |
CN109871415B (zh) | 一种基于图数据库的用户画像构建方法、系统及存储介质 | |
CN111078780A (zh) | 一种ai优化数据治理的方法 | |
CN111629081B (zh) | 互联网协议ip地址数据处理方法、装置及电子设备 | |
CN102893553A (zh) | 个人信息匿名化装置 | |
CN116680648B (zh) | 一种数字孪生城市的业务融合数据生成方法及系统 | |
CN109564616A (zh) | 个人信息去标识化方法及装置 | |
CN110275889B (zh) | 一种适用于机器学习的特征处理方法及装置 | |
CN103970891A (zh) | 一种基于情境的用户兴趣信息查询方法 | |
CN107741982A (zh) | 一种坐标与行政区域匹配系统及方法 | |
CN114092729A (zh) | 基于聚类匿名化与差分隐私保护的异构用电数据发布方法 | |
CN110119396B (zh) | 数据管理方法及相关产品 | |
CN113743496A (zh) | 一种基于聚类映射的k-匿名数据处理方法及系统 | |
CN110134698A (zh) | 数据管理方法及相关产品 | |
CN107861965A (zh) | 数据智能识别方法及系统 | |
CN111737490B (zh) | 基于银行渠道的知识图谱本体模型生成方法及装置 | |
CN111581304B (zh) | 一种基于社会人口家族关系自动绘制家系图谱的方法 | |
CN113934713A (zh) | 一种订单数据索引方法、系统、计算机设备以及存储介质 | |
Chen et al. | An efficient privacy protection in mobility social network services with novel clustering-based anonymization | |
CN113378223B (zh) | 基于双重编码和聚类映射的k-匿名数据处理方法及系统 | |
CN117216109A (zh) | 一种多类型混合数据的数据查询方法、装置及存储介质 | |
CN107291875B (zh) | 一种基于元数据图的元数据组织管理方法和系统 | |
CN103020189A (zh) | 数据处理装置和数据处理方法 | |
CN115455050A (zh) | 一种分布式数据库及查询方法 | |
CN111414364B (zh) | 用户信息生成方法、装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |