CN110348238B - 一种面向应用的隐私保护分级方法及装置 - Google Patents

一种面向应用的隐私保护分级方法及装置 Download PDF

Info

Publication number
CN110348238B
CN110348238B CN201910450194.8A CN201910450194A CN110348238B CN 110348238 B CN110348238 B CN 110348238B CN 201910450194 A CN201910450194 A CN 201910450194A CN 110348238 B CN110348238 B CN 110348238B
Authority
CN
China
Prior art keywords
attribute
privacy protection
data
layer
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910450194.8A
Other languages
English (en)
Other versions
CN110348238A (zh
Inventor
罗涛
王艺宁
宋海娜
王寻
王楠
李剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910450194.8A priority Critical patent/CN110348238B/zh
Publication of CN110348238A publication Critical patent/CN110348238A/zh
Application granted granted Critical
Publication of CN110348238B publication Critical patent/CN110348238B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明实施例提供一种面向应用的隐私保护分级方法及装置。其中,方法包括:基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;基于多维数据中的敏感属性和重点关注属性,对多维数据进行关联度分析和聚类分析,确定多维数据中各数据层次的隐私保护等级;其中,各数据层次包括:数据层、属性层和数值层;基于多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数后的隐私保护算法,对多维数据进行隐私保护。能够针对灵活多变的应用场景,快速给出兼顾数据私密性与可用性的个性化的隐私保护方案,实现数据的精准隐私保护,提高了多维数据的可用性。

Description

一种面向应用的隐私保护分级方法及装置
技术领域
本发明涉及信息安全技术领域,尤其涉及一种面向应用的隐私保护分级方法及装置。
背景技术
随着数据的交叉与融合,多方数据共享以进行数据挖掘与行为分析具有巨大的应用价值。但是,在不同应用场景下多源融合数据的隐私保护具有个性化隐私需求:对于不同的数据提供者,数据敏感属性的界定不同,存在个性化的隐私保护需求;对于不同的数据使用者,重点关注的数据属性不同,存在差异化的数据效用需求。
针对不同应用场景下高维敏感数据发布的隐私保护问题,大部分传统发布方法通常会对整个数据集进行统一的数据处理,没有考虑数据集中不同属性的敏感度不同。实际上,有些数据属性不敏感,而有些数据的敏感程度却相对比较高。为满足高敏感属性的隐私保护需求而对整个数据集进行统一处理,不可避免会大大损失发布数据应有的可用性。
发明内容
本发明实施例提供一种面向应用的隐私保护分级方法及装置,用以解决现有的不同应用场景下多维数据的隐私保护具有个性化需求的问题。
第一方面,本发明实施例提供一种面向应用的隐私保护分级方法,包括:
基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;
基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;
基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数的隐私保护算法,对所述多维数据进行隐私保护。
第二方面,本发明实施例提供一种面向应用的隐私保护分级装置,包括:
面向应用的隐私需求确定模块,用于基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;
隐私保护等级确定模块,用于基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;
隐私保护模块,用于基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数的隐私保护算法,对所述多维数据进行隐私保护。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种面向应用的隐私保护分级方法及装置,将多维数据分为数据层、属性层和数值层这三个数据层次,基于不同应用场景,综合考虑数据提供者的隐私保护需求和数据使用者的数据效用需求,确定多维数据的敏感属性和重点关注属性,并基于此对多维数据进行关联度分析和聚类分析,得到多维数据各数据层次的隐私保护等级,从而根据各数据层次的隐私保护等级确定隐私保护算法的参数,进而通过参数确定后的隐私保护算法对多维数据进行隐私保护。本发明实施例提供的方法,能够针对灵活多变的应用场景,快速给出兼顾数据私密性与可用性的个性化的隐私保护方案,实现数据的精准隐私保护,提高了多维数据的可用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种面向应用的隐私保护分级方法流程图;
图2为本发明实施例提供的一种预设的隐私评估模型的隐私保护分级示意图;
图3为本发明另一实施例提供的一种面向应用的隐私保护分级方法流程图;
图4为本发明实施例提供的一种面向应用的隐私保护分级装置的结构示意图;
图5为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种面向应用的隐私保护分级方法流程图,该方法的执行主体为隐私保护分级装置,该装置可安装或集成在计算机或服务器上,如图1所示,该方法包括:
步骤101,基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性。
步骤102,基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层。
具体地,多维数据指的是具有多个属性且每一属性具有多个值的数据,例如,在车辆网领域,多维数据可以具有如下属性:车主身份、车辆轨迹、车辆位置和车辆违章,而对于车主身份这个属性,其可具有如下值:张三、李四和王五。表1为车辆网领域的多维数据的示意表,其仅为一种示例,本发明实施例对多维数据不作具体限定。
表1车辆网领域的多维数据的示意表
车主身份 车辆轨迹 车辆位置 车辆违章
张三
李四
王五
需要说明的是,表1中的“…”表示省略。
多维数据中的敏感属性,是基于数据提供者的隐私保护需求确定的,该需求即是指数据提供者对多维数据中的某些属性进行保护的需求。
多维数据中的重点关注属性,是基于数据使用者的数据效用需求确定的,该需求即是指数据使用者对多维数据中的某些属性进行使用的需求。
例如,对于车辆网领域的多维数据,在共享车辆运营的应用场景中,数据提供者需要对车主身份进行保护,此时,车主身份为敏感属性;数据使用者主要关心的是车辆位置,此时,车辆位置为重点关注属性。在交通管理机构违章处理的应用场景中,数据提供者需要对车主身份进行保护,此时,车主身份仍为敏感属性;数据使用者主要关心的是车辆违章,此时,车辆违章为重点关注属性。
基于多维数据中的敏感属性和重点关注属性,对多维数据进行关联度分析和聚类分析。其中,关联度分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式的分析技术。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析技术。
对多维数据进行关联度分析和聚类分析后,能够得到多维数据中各数据层次的隐私保护等级。需要说明的是,在本发明实施例中,将多维数据划分成了三个数据层次,分别为:数据层、属性层和数值层。参照表1对这三个数据层次进行说明:数据层为整张示意表,属性层为各列属性,数值层为各属性值。此时,多维数据中各数据层次的隐私保护等级包括:数据层的隐私保护等级、属性层的隐私保护等级和数值层的隐私保护等级。
步骤103,基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数的隐私保护算法,对所述多维数据进行隐私保护。
具体地,得到数据层的隐私保护等级、属性层的隐私保护等级和数值层的隐私保护等级后,根据这三个数据层次的隐私保护等级,确定隐私保护算法的参数,然后通过确定参数的隐私保护算法对多维数据进行隐私保护。需要说明的是,隐私保护算法为匿名算法与基于数据失真的随机响应算法的融合算法;其中,所述匿名算法为k-匿名算法、l-多样性算法或t接近性算法。
本发明实施例提供的隐私保护分级方法,将多维数据分为数据层、属性层和数值层这三个数据层次,基于不同应用场景,综合考虑数据提供者的隐私保护需求和数据使用者的数据效用需求,确定多维数据的敏感属性和重点关注属性,并基于此对多维数据进行关联度分析和聚类分析,得到多维数据各数据层次的隐私保护等级,从而根据各数据层次的隐私保护等级,确定隐私保护算法的参数,进而通过确定参数的隐私保护算法对多维数据进行隐私保护。本发明实施例提供的方法,能够针对灵活多变的应用场景,快速给出兼顾数据私密性与可用性的个性化的隐私保护方案,实现数据的精准隐私保护,提高了多维数据的可用性。
基于上述任一实施例,本发明实施例对确定多维数据中各数据层次的隐私保护等级的过程进行具体说明。基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级,包括:
步骤1021,在所述多维数据的所有属性中,将敏感属性和重点关注属性组成第一属性集合,并将剩余的属性组成第二属性集合。
具体地,使用上述实施例中车辆网领域的多维数据并结合交通管理机构违章处理的应用场景对本发明实施例进行说明。
车辆网领域的多维数据包括车主身份、车辆轨迹、车辆位置和车辆违章这四个属性,基于数据提供者的隐私保护需求可知,数据提供者需要对车主身份进行保护,此时,车主身份为敏感属性;基于数据使用者的数据效用需求可知,数据使用者主要关心的是车辆违章,此时,车辆违章为重点关注属性。
此时,在上述四个属性中,将敏感属性车主身份和重点关注属性车辆违章组成第一属性集合,将剩余的车辆轨迹和车辆位置组成第二属性集合。
步骤1022,计算所述第二属性集合中每一属性与所述第一属性集合中每一属性间的关联度,组成关联度集合。
具体地,第一属性集合包括车主身份和车辆违章,第二属性集合包括车辆轨迹和车辆位置,此时,计算如下四个关联度:
车辆轨迹与车主身份间的关联度、车辆轨迹与车辆违章间的关联度、车辆位置与车主身份间的关联度、以及车辆位置与车辆违章间的关联度。
将上述四个关联度组成关联度集合。
步骤1023,基于所述关联度集合,确定所述多维数据中数据层的隐私保护等级和属性层的隐私保护等级。
步骤1024,对所述多维数据进行聚类分析,确定所述多维数据中数值层的隐私保护等级。
具体地,聚类分析包括:K-Means聚类分析、均值漂移聚类分析、DBSCAN聚类分析、GMM聚类分析、层次聚类分析和图团体检测聚类分析中的任意一种或多种。参照表1,对多维数据进行聚类分析指的是对数值层也即各属性值进行聚类分析,以将各属性值分为多类。并根据如下公式计算每一类中属性值的隐私保护需求Pi
Figure BDA0002074902520000061
其中,Ni为第i类中属性值的个数,N为所有属性值的个数。
根据所有类中所有属性值的隐私保护需求,确定多维数据中数值层的隐私保护等级。
基于上述任一实施例,本发明实施例对计算关联度的过程进行具体说明,计算所述第二属性集合中每一属性与所述第一属性集合中每一属性间的关联度,组成关联度集合,包括:
步骤1031,计算所述第二属性集合中每一属性与所述第一属性集合中每一属性间的互信息值。
具体地,此处举例说明车辆位置X与车辆违章Π间互信息值的计算过程:
首先计算各监控位置Xi的边缘概率分布Pr[Xi]=N(Xi)/N,其中,N为数据总量,N(Xi)为Xi出现次数;车辆违章属性包含两个属性值:违章(Π=1)不违章(Π=0),其边缘概率分布分别为Pr[Π=1]和Pr[Π=0]。
其次,计算联合概率分布Pr[Xi,Π=1]和Pr[Xi,Π=0]。
最后,通过如下公式,根据联合概率分布Pr[Xi,Π=1]和Pr[Xi,Π=0],计算车辆位置X与车辆违章Π间的互信息值MI(X,Π):
Figure BDA0002074902520000071
由此,可得到车辆轨迹与车主身份间的互信息值、车辆轨迹与车辆违章间的互信息值、车辆位置与车主身份间的互信息值、以及车辆位置与车辆违章间的互信息值。
步骤1032,根据所述互信息值,确定所述第二属性集合中每一属性与所述第一属性集合中每一属性间的关联度,组成关联度集合。
具体地,在本发明实施例中,根据车辆轨迹与车主身份间的互信息值,可确定车辆轨迹与车主身份间的关联度;根据车辆轨迹与车辆违章间的互信息值,可确定车辆轨迹与车辆违章间的关联度;根据车辆位置与车主身份间的互信息值,可确定车辆位置与车主身份间的关联度;根据车辆位置与车辆违章间的互信息值,可确定车辆位置与车辆违章间的关联度。
需要说明的是,用互信息值量化关联度,互信息值越大,关联度越大,本实施例对通过互信息值量化关联度的过程不作具体限定。
基于上述任一实施例,本发明实施例对基于所述关联度集合,确定所述多维数据中数据层的隐私保护等级的过程进行说明:
基于第一量化函数,根据所述关联度集合,计算所述数据层的隐私保护需求。
具体地,基于如下公式,计算得到数据层的隐私保护需求RN
Figure BDA0002074902520000081
其中,PN(other)=f1(a,b,c,d),a为车辆轨迹与车主身份的关联度,b为车辆轨迹与车辆违章的关联度,c为车辆位置与车主身份的关联度,d为车辆位置与车辆违章的关联度,f1为第一量化函数,PN(max)为隐私保护最高等级所对应的数值。
基于预设的隐私评估模型,根据所述数据层的隐私保护需求,确定数据层的隐私保护等级。
具体地,图2为本发明实施例提供的一种预设的隐私评估模型的隐私保护分级示意图,如图2所示,在隐私保护需求从0变到1的过程中,隐私保护等级相应地从一级逐渐上升至六级。隐私保护需求与隐私保护等级的对应关系具体如图2所示,此处不再赘述。
基于上述任一实施例,基于所述关联度集合,确定所述多维数据中属性层的隐私保护等级,包括:
对于所述第二属性集合中的每一属性,基于第二量化函数,根据所述属性与所述第一属性集合中每一属性间的关联度,确定所述属性的隐私保护需求。
具体地,对于第二属性集合中的车辆轨迹,车辆轨迹与车主身份的关联度为a,车辆轨迹与车辆违章的关联度为b,基于如下公式,计算车辆轨迹的隐私保护需求P:
P=f2(a,b)
其中,a为车辆轨迹与车主身份的关联度,b为车辆轨迹与车辆违章的关联度,f2为第二量化函数。
需要说明的是,与敏感属性关联度越大的属性隐私保护需求越高,与重点关注属性关联度越大的属性隐私保护需求越低,基于第二量化函数综合考虑两方面因素,可得到属性的隐私保护需求。
对于所述第一属性集合中的每一属性,基于预设的隐私保护等级规则,确定所述属性的隐私保护需求。
具体地,对于第一属性集合中的敏感属性车主身份,将该属性的隐私保护需求定义为最高值,例如1,对于第一属性集合中的重点关注属性车辆违章,将该属性的隐私保护需求定义为最低值,例如0。
基于所述第二属性集合中每一属性的隐私保护需求和所述第一属性集合中每一属性的隐私保护需求,确定所述属性层的隐私保护等级。
具体地,基于多维数据的所有属性中各属性的隐私保护需求,确定属性层的隐私保护等级。
综上所述,得到了多维数据各数据层次的隐私保护等级,基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数的隐私保护算法,对所述多维数据进行隐私保护。
基于上述任一实施例,对所述多维数据进行聚类分析,确定所述多维数据中数值层的隐私保护等级,包括:
通过聚类算法对所述多维数据进行聚类分析,根据分析结果确定所述数值层的隐私保护等级;
其中,所述聚类算法为K-Means聚类算法、均值漂移聚类算法、DBSCAN聚类算法、GMM聚类算法、层次聚类算法或图团体检测聚类算法。
具体地,通过上述任一聚类算法都可对多维数据的数值层进行聚类分析,得到聚类结果,也即对多维数据的各属性值进行聚类分析,以将各属性值分为多类。并根据如下公式计算每一类中属性值的隐私保护需求Pi
Figure BDA0002074902520000091
其中,Ni为第i类中属性值的个数,N为所有属性值的个数。
根据所有类中所有属性值的隐私保护需求,确定多维数据中数值层的隐私保护等级。
基于上述任一实施例,所述隐私保护算法为匿名算法与基于数据失真的随机响应算法的融合算法;其中,
所述匿名算法为k-匿名算法、l-多样性算法或t接近性算法。
作为一个优选的实施例,本发明实施例结合图3对面向应用的隐私保护分级方法进行进一步说明,图3为本发明另一实施例提供的一种面向应用的隐私保护分级方法流程图,如图3所示,该方法包括:
S301,融合不同的数据提供者提供的原始数据,得到多维数据;
S302,根据具体应用场景,确定多维数据中的敏感属性和重点关注属性;
S303,基于多维数据中的敏感属性和重点关注属性,对多维数据进行关联度分析和聚类分析,确定多维数据中各数据层次的隐私保护等级,包括:数据层隐私保护等级、属性层隐私保护等级和数值层隐私保护等级;
S304,根据数据层隐私保护等级、属性层隐私保护等级和数值层隐私保护等级,确定个性化隐私保护方案,具体为:基于各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数后的隐私保护算法,对多维数据进行隐私保护。
基于上述任一实施例,图4为本发明实施例提供的一种面向应用的隐私保护分级装置的结构示意图,如图4所示,该装置包括:
面向应用的隐私需求确定模块401,用于基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;隐私保护等级确定模块402,用于基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;隐私保护模块403,用于基于所述多维数据中各数据层次的隐私保护等级,确定对隐私保护算法进行的参数调整,并基于确定参数调整后的隐私保护算法,对所述多维数据进行隐私保护。
本发明实施例提供的装置,具体执行上述各方法实施例流程,具体请详见上述各方法实施例的内容,此处不再赘述。本发明实施例提供的装置,将多维数据分为数据层、属性层和数值层这三个数据层次,基于不同应用场景,综合考虑数据提供者的隐私保护需求和数据使用者的数据效用需求,确定多维数据的敏感属性和重点关注属性,并基于此对多维数据进行关联度分析和聚类分析,得到多维数据各数据层次的隐私保护等级,从而根据各数据层次的隐私保护等级确定隐私保护算法的参数,进而通过确定参数的隐私保护算法对多维数据进行隐私保护。本发明实施例提供的装置,能够针对灵活多变的应用场景,快速给出兼顾数据私密性与可用性的个性化的隐私保护方案,实现数据的精准隐私保护,提高了多维数据的可用性。
图5为本发明实施例提供的一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储在存储器503上并可在处理器501上运行的计算机程序,以执行上述各实施例提供的方法,例如包括:基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数后的隐私保护算法,对所述多维数据进行隐私保护。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数的隐私保护算法,对所述多维数据进行隐私保护。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种面向应用的隐私保护分级方法,其特征在于,包括:
基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;
基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;
基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数后的隐私保护算法,对所述多维数据进行隐私保护;
其中,基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级,包括:
所述多维数据的所有属性中,将敏感属性和重点关注属性组成第一属性集合,并将剩余的属性组成第二属性集合;
基于关联分析算法,计算所述第二属性集合中每一属性与所述第一属性集合中每一属性间的关联度,组成关联度集合;
基于所述关联度集合和第一量化函数,确定所述多维数据中数据层的隐私保护等级;
基于所述关联度集合和第二量化函数,确定所述多维数据中属性层的隐私保护等级;
对所述多维数据中的各个属性值进行聚类分析,以将属性值分为多类,根据各类属性值比例,计算每一类中的属性值的隐私保护需求;根据所有类中的所有属性值的隐私保护需求,确定所述多维数据中数值层的隐私保护等级。
2.根据权利要求1所述的隐私保护分级方法,其特征在于,计算所述第二属性集合中每一属性与所述第一属性集合中每一属性间的关联度,组成关联度集合,包括:
计算所述第二属性集合中每一属性与所述第一属性集合中每一属性间的互信息值;
根据所述互信息值,确定所述第二属性集合中每一属性与所述第一属性集合中每一属性间的关联度,组成关联度集合。
3.根据权利要求1所述的隐私保护分级方法,其特征在于,基于所述关联度集合,确定所述多维数据中数据层的隐私保护等级,包括:
基于第一量化函数,根据所述关联度集合,计算所述数据层的隐私保护需求;
基于预设的隐私评估模型,根据所述数据层的隐私保护需求,确定所述数据层的隐私保护等级。
4.根据权利要求1所述的隐私保护分级方法,其特征在于,基于所述关联度集合,确定所述多维数据中属性层的隐私保护等级,包括:
对于所述第二属性集合中的每一属性,基于第二量化函数,根据所述属性与所述第一属性集合中每一属性间的关联度,确定所述属性的隐私保护需求;
对于所述第一属性集合中的每一属性,基于预设的隐私保护等级规则,确定所述属性的隐私保护需求;
基于所述第二属性集合中每一属性的隐私保护需求和所述第一属性集合中每一属性的隐私保护需求,确定所述属性层的隐私保护等级。
5.根据权利要求1所述的隐私保护分级方法,其特征在于,对所述多维数据进行聚类分析,确定所述多维数据中数值层的隐私保护等级,包括:
通过聚类算法对所述多维数据进行聚类分析,根据分析结果确定所述数值层的隐私保护等级;
其中,所述聚类算法为K-Means聚类算法、均值漂移聚类算法、DBSCAN聚类算法、GMM聚类算法、层次聚类算法或图团体检测聚类算法。
6.根据权利要求1所述的隐私保护分级方法,其特征在于,所述隐私保护算法为匿名算法与基于数据失真的随机响应算法的融合算法;其中,
所述匿名算法为k-匿名算法、l-多样性算法或t接近性算法。
7.一种面向应用的隐私保护分级装置,其特征在于,包括:
面向应用的隐私需求确定模块,用于基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;
隐私保护等级确定模块,用于基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;
隐私保护模块,用于基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数的隐私保护算法,对所述多维数据进行隐私保护;
其中,所述多维数据的所有属性中,将敏感属性和重点关注属性组成第一属性集合,并将剩余的属性组成第二属性集合;
计算所述第二属性集合中每一属性与所述第一属性集合中每一属性间的关联度,组成关联度集合;
基于所述关联度集合和第一量化函数,确定所述多维数据中数据层的隐私保护等级;
基于所述关联度集合和第二量化函数,确定所述多维数据中属性层的隐私保护等级;
对所述多维数据中的各个属性值进行聚类分析,以将属性值分为多类,根据各类属性值比例,计算每一类中的属性值的隐私保护需求;根据所有类中的所有属性值的隐私保护需求,确定所述多维数据中数值层的隐私保护等级。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述隐私保护分级方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述隐私保护分级方法的步骤。
CN201910450194.8A 2019-05-28 2019-05-28 一种面向应用的隐私保护分级方法及装置 Expired - Fee Related CN110348238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910450194.8A CN110348238B (zh) 2019-05-28 2019-05-28 一种面向应用的隐私保护分级方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910450194.8A CN110348238B (zh) 2019-05-28 2019-05-28 一种面向应用的隐私保护分级方法及装置

Publications (2)

Publication Number Publication Date
CN110348238A CN110348238A (zh) 2019-10-18
CN110348238B true CN110348238B (zh) 2020-12-04

Family

ID=68174135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910450194.8A Expired - Fee Related CN110348238B (zh) 2019-05-28 2019-05-28 一种面向应用的隐私保护分级方法及装置

Country Status (1)

Country Link
CN (1) CN110348238B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851860A (zh) * 2019-10-23 2020-02-28 国网天津市电力公司电力科学研究院 一种基于匿名化隐私技术的用电数据脱敏算法模型构建方法
CN111104434B (zh) * 2019-11-25 2022-01-18 北京理工大学 一种基于隐私保护多级属性相似度的电子医疗推荐方法
CN112926089B (zh) * 2021-03-25 2023-03-17 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据风险防控方法、装置及设备
CN113254988B (zh) * 2021-04-25 2022-10-14 西安电子科技大学 高维敏感数据隐私分级保护发布方法、系统、介质及设备
CN114238280A (zh) * 2021-12-20 2022-03-25 中电金信软件有限公司 构建金融敏感信息标准库的方法、装置及电子设备
CN114093014A (zh) * 2022-01-20 2022-02-25 深圳前海中电慧安科技有限公司 一种图码关联强度计算方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744654A (zh) * 2013-12-20 2014-04-23 中电长城网际系统应用有限公司 基于分级分类的信息防泄漏模板的生成方法和装置
CN106911670A (zh) * 2017-01-13 2017-06-30 重庆邮电大学 一种车联网中的隐私保护系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015114871A (ja) * 2013-12-12 2015-06-22 Kddi株式会社 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
CN107292183B (zh) * 2017-06-29 2019-08-23 国信优易数据有限公司 一种数据处理方法及设备
CN107832631A (zh) * 2017-11-13 2018-03-23 上海斐讯数据通信技术有限公司 一种数据发布的隐私保护方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744654A (zh) * 2013-12-20 2014-04-23 中电长城网际系统应用有限公司 基于分级分类的信息防泄漏模板的生成方法和装置
CN106911670A (zh) * 2017-01-13 2017-06-30 重庆邮电大学 一种车联网中的隐私保护系统及方法

Also Published As

Publication number Publication date
CN110348238A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110348238B (zh) 一种面向应用的隐私保护分级方法及装置
CN110462606B (zh) 智能安全管理
KR102430649B1 (ko) 익명화를 위해 속성들을 자동으로 식별하기 위한 컴퓨터 구현 시스템 및 방법
US9641334B2 (en) Method and apparatus for ascertaining data access permission of groups of users to groups of data elements
CN105871577A (zh) 资源权限管理方法及装置
WO2021189975A1 (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
Zhang et al. An affinity propagation clustering algorithm for mixed numeric and categorical datasets
Abbasi et al. A clustering‐based anonymization approach for privacy‐preserving in the healthcare cloud
Celikel et al. A risk management approach to RBAC
CN107211000A (zh) 用于实现隐私防火墙的系统和方法
CN112099870B (zh) 文档处理方法、装置、电子设备及计算机可读存储介质
US11968214B2 (en) Efficient retrieval and rendering of access-controlled computer resources
CN106469182A (zh) 一种基于映射关系的信息推荐方法及装置
Zhang et al. Differential privacy medical data publishing method based on attribute correlation
Ennajjar et al. Securing data in cloud computing by classification
CN111967046B (zh) 一种面向大数据资源的自适应访问控制方法
Zhu [Retracted] Personal Information Security Environment Monitoring and Law Protection Using Big Data Analysis
WO2019019711A1 (zh) 行为模式数据的发布方法、装置、终端设备及介质
Aziz Towards open data-driven evaluation of access control policies
CN110232157B (zh) 一种基于内容的隐私保护图书推荐方法及系统
US11675926B2 (en) Systems and methods for subset selection and optimization for balanced sampled dataset generation
CN112926084A (zh) 访问权限管理方法及系统
CN112115513A (zh) 一种社交网络中用户节点隐私信息保护方法
Rahaman A Proposed Model for Cybercrime Detection Algorithm Using A Big Data Analytics
CN111209284A (zh) 基于元数据的分表方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201204

Termination date: 20210528