CN111079179A - 数据处理方法、装置、电子设备及可读存储介质 - Google Patents

数据处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111079179A
CN111079179A CN201911300117.0A CN201911300117A CN111079179A CN 111079179 A CN111079179 A CN 111079179A CN 201911300117 A CN201911300117 A CN 201911300117A CN 111079179 A CN111079179 A CN 111079179A
Authority
CN
China
Prior art keywords
quasi
identifier
sensitive
data
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911300117.0A
Other languages
English (en)
Inventor
付莉珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN201911300117.0A priority Critical patent/CN111079179A/zh
Publication of CN111079179A publication Critical patent/CN111079179A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据处理方法、装置、电子设备及可读存储介质,涉及数据安全技术领域。该方法包括:获取多个用户中每个用户对应的用户数据集;确定各个用户对应的用户数据集中每个准标识符属性对应的目标数据和所述敏感属性对应的敏感数据;基于所述目标数据和所述敏感数据,确定每个所述准标识符属性和所述敏感属性之间的关联程度;根据所述关联程度确定对所述多个准标识符属性进行K‑匿名处理的泛化顺序,如可将关联程度大的准标识符属性先进行泛化,从而使得与敏感属性相关的准标识符属性能够被泛化到,攻击者不会轻易定位到用户,避免了用户的隐私信息被轻易泄露的问题。

Description

数据处理方法、装置、电子设备及可读存储介质
技术领域
本申请涉及数据安全技术领域,具体而言,涉及一种数据处理方法、装置、电子设备及可读存储介质。
背景技术
K-匿名是Samarati和L.Sweeney在1998年提出来的用于公共数据库或微数据发布的匿名隐私保护技术,2002年L.Sweeney为之命名为k-匿名模型,该模型在信息发布时能有效避免通过链接攻击等手段而造成的隐私信息泄露。
K-匿名算法不同于传统的访问控制等基于目标的隐私保护技术,是一个典型的微数据发布模型,其中,微数据定义为一条表达和描述个体信息的数据记录,为个体信息的载体。这些信息包括个体的标识信息(如姓名、身份证号等)、敏感信息(如病史等)、以及一些非敏感信息(如性别)。每个信息都是以个体属性和相应的属性值匹配的方式作为微数据(记录)的某个分量。它要求首先对原始数据进行预处理以满足匿名要求,然后将已处理的数据予以发布,它并不要求限制对已发布数据的访问,相反尽可能的保持数据的可统计性。
因而数据泛化(泛化是对于数据的一个属性,用概括值代替原来的值,使其意义更为广阔)是常用的数据预处理手段,K匿名就是要求在一个集合中只能以不大于1/k(k是一个常数)的概率确定任何一个元素,即要求任何一个元素,集合中至少存在k-1个相同的副本元素,即将准标识符属性的具体值抽象为一个高度概括的等价类,当每个等价类中元组(即样本,每个元组指一条用户记录)个数大于或等于K时,达到K匿名要求。
而现有技术中在对准标识符属性进行泛化处理时,先选定泛化顺序,泛化顺序不同会影响最终匿名后的数据损失度,目前一般是将取值多的准标识符属性先进行泛化,而取值多意味着数据取值概括程度低,这样更容易定位到某个元组,从而更容易泄露用户的信息,安全性较低。
发明内容
本申请实施例的目的在于提供一种数据处理方法、装置、电子设备及可读存储介质,用以改善现有技术中基于泛化后的数据很容易定位到具体的用户,使得其用户信息泄露的问题。
第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
获取多个用户中每个用户对应的用户数据集,所述用户数据集包括对应的用户在各个不同个人属性中的个人数据,所述个人属性包括敏感属性和多个准标识符属性;
确定各个用户对应的用户数据集中每个准标识符属性对应的目标数据和所述敏感属性对应的敏感数据;
基于所述目标数据和所述敏感数据,确定每个所述准标识符属性和所述敏感属性之间的关联程度;
根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序。
在上述实现过程中,通过获得准标识符属性与敏感属性之间的关联程度来确定对多个准标识属性的泛化顺序,如可将关联程度大的准标识符属性先进行泛化,从而使得与敏感属性相关的准标识符属性能够被泛化到,攻击者不会轻易定位到用户,避免了用户的隐私信息被轻易泄露的问题。
可选地,所述基于所述目标数据和所述敏感数据,确定每个所述准标识符属性和所述敏感属性之间的关联程度,包括:
计算并获得每个所述目标数据和所述敏感数据之间的关联系数;
根据多个所述关联系数确定每个所述准标识符属性和所述敏感属性之间的关联程度。
在上述实现过程中,通过计算目标数据和敏感数据之间的关联系数,可以更加直观便捷地确定准标识符属性和敏感属性之间的关联程度。
可选地,所述计算并获得所述目标数据和所述敏感数据之间的多个关联系数,包括:
采用灰色关联分析法计算并获得每个所述目标数据和所述敏感数据之间的关联系数。
在上述实现过程中,利用灰色关联分析法获取准标识符属性与敏感属性之间的关联程度可以在很大程度上减少由于信息不对称带来的损失,工作量较少。
可选地,所述根据多个所述关联系数确定每个所述准标识符属性和所述敏感属性之间的关联程度,包括:
计算并获得多个所述关联系数的关联系数均值;
将所述关联系数均值确定为对应的准标识符属性和所述敏感属性之间的关联程度。
在上述实现过程中,将关联系数均值确定为关联程度可更加直观地获得准标识符属性与敏感属性之间的关联程度。
可选地,所述计算并获得每个所述目标数据和所述敏感数据之间的关联系数之前,还包括:
对所述目标数据和所述敏感数据分别进行无量纲化处理,获得处理后的目标数据和敏感数据。
在上述实现过程中,对数据进行无量纲化处理,使得可将不同类型的数据转换为相同的表示,便于后续对数据的处理。
可选地,所述确定各个用户对应的用户数据集中每个准标识符属性对应的目标数据,包括:
对所述多个准标识符属性进行筛选,获得所述用户数据集中剩余的至少两个准标识符属性;
确定各个用户对应的用户数据集中剩余的每个准标识符属性对应的目标数据。
在上述实现过程中,对准标识符属性进行筛选,由此将主要的准标识符属性进行泛化,以减少信息处理量。
可选地,所述对所述多个准标识符属性进行筛选,获得所述用户数据集中剩余的至少两个准标识符属性,包括:
采用主成分分析法对所述多个准标识符属性进行筛选,获得所述用户数据集中剩余的至少两个准标识符属性。
在上述实现过程中,通过主成分分析法可以有效筛选出剩余的准标识符属性,尽可能保留主要信息。
可选地,所述根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序,包括:
根据所述关联程度的大小顺序确定对所述多个准标识符属性进行K-匿名处理的泛化先后顺序。
在上述实现过程中,将关联程度大的准标识符属性先进行泛化可使得与敏感属性相关的数据不容易被泄露。
可选地,所述根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序,包括:
获取每个所述准标识符属性对应的目标数据的取值个数;
根据所述关联程度以及每个所述准标识符属性对应的目标数据的取值个数,确定对所述多个准标识符属性进行K-匿名处理的泛化顺序。
在上述实现过程中,基于关联程度以及取值个数确定准标识符属性的泛化顺序,可使得关联程度大以及取值个数大的准标识符属性能够先被泛化,可有效抵御链接攻击。
可选地,所述根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序之后,还包括:
按照所述泛化顺序依次对所述多个准标识符属性进行泛化处理,直至总的泛化层次达到预设K值。
第二方面,本申请实施例提供了一种数据处理装置,所述装置包括:
用户数据获取模块,用于获取多个用户中每个用户对应的用户数据集,所述用户数据集包括对应的用户在各个不同个人属性中的个人数据,所述个人属性包括敏感属性和多个准标识符属性;
属性数据确定模块,用于确定各个用户对应的用户数据集中每个准标识符属性对应的目标数据和所述敏感属性对应的敏感数据;
关联程度获取模块,用于基于所述目标数据和所述敏感数据,确定每个所述准标识符属性和所述敏感属性之间的关联程度;
泛化顺序确定模块,用于根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序。
可选地,所述关联程度获取模块,用于计算并获得每个所述目标数据和所述敏感数据之间的关联系数;根据多个所述关联系数确定每个所述准标识符属性和所述敏感属性之间的关联程度。
可选地,所述关联程度获取模块,还用于采用灰色关联分析法计算并获得每个所述目标数据和所述敏感数据之间的关联系数。
可选地,所述关联程度获取模块,用于计算并获得多个所述关联系数的关联系数均值;将所述关联系数均值确定为对应的准标识符属性和所述敏感属性之间的关联程度。
可选地,所述关联程度获取模块,还用于对所述目标数据和所述敏感数据分别进行无量纲化处理,获得处理后的目标数据和敏感数据。
可选地,所述属性数据确定模块,用于对所述多个准标识符属性进行筛选,获得所述用户数据集中剩余的至少两个准标识符属性;确定各个用户对应的用户数据集中剩余的每个准标识符属性对应的目标数据和所述敏感属性对应的敏感数据。
可选地,所述属性数据确定模块,用于采用主成分分析法对所述多个准标识符属性进行筛选,获得所述用户数据集中剩余的至少两个准标识符属性。
可选地,所述泛化顺序确定模块,用于根据所述关联程度的大小顺序确定对所述多个准标识符属性进行K-匿名处理的泛化先后顺序。
可选地,所述泛化顺序确定模块,用于获取每个所述准标识符属性对应的目标数据的取值个数;根据所述关联程度以及每个所述准标识符属性对应的目标数据的取值个数,确定对所述多个准标识符属性进行K-匿名处理的泛化顺序。
可选地,所述装置还包括:
泛化模块,用于按照所述泛化顺序依次对所述多个准标识符属性进行泛化处理,直至总的泛化层次达到预设K值。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的结构示意图;
图2为本申请实施例提供的一种数据处理方法的流程图;
图3为本申请实施例提供的一种泛化过程的示意图;
图4为本申请实施例提供的一种数据处理装置的结构框图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例提供一种数据处理方法,通过获得准标识符属性与敏感属性之间的关联程度来确定对多个准标识属性的泛化顺序,如可将关联程度大的准标识符先进行泛化,从而使得与敏感属性相关的准标识符能够被泛化到,攻击者不会轻易定位到用户,避免了用户的隐私信息被轻易泄露的问题。
为了便于对本申请实施例的理解,下面先对本申请实施例中涉及到的相关概念进行解释。
标识符:能够唯一地确定一个用户的身份,如ID、姓名等属性。
准标识符:能够以较高的概率结合一定的外部信息确定一个用户的身份,但是不能唯一识别一个用户的身份,如省份、年龄、性别、邮编等属性,攻击者可以通过这几个信息确定一个用户。
敏感属性:用户的隐私信息,即需要被保护的信息,如用户的薪酬或病史等属性。
泛化:是指把准标识符属性的具体值用更抽象、更概括的取值代替。
请参照图1,图1为本申请实施例提供的一种电子设备的结构示意图,所述电子设备可以包括:至少一个处理器110,例如CPU,至少一个通信接口120,至少一个存储器130和至少一个通信总线140。其中,通信总线140用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器110执行时,电子设备执行下述图2所示方法过程,例如,存储器130可用于存储每个用户对应的用户数据集,处理器110可用于在确定对准标识符的泛化顺序时,从存储器130中获取用户数据集并对其进行分析,以获取敏感属性与准标识符之间的关联程度,然后基于关联程度确定各个准标识符的泛化顺序。
可以理解,图1所示的结构仅为示意,所述电子设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,图2为本申请实施例提供的一种数据处理方法的流程图,该方法包括如下步骤:
步骤S110:获取多个用户中每个用户对应的用户数据集,所述用户数据集包括对应的用户在各个不同个人属性中的个人数据,所述个人属性包括敏感属性和多个准标识符属性。
其中,用户的个人数据一般包括该用户的性别、年龄、地址、邮编、病史等个人属性对应的数据构成,将这些个人属性划分为标识符属性、准标识符属性和敏感属性。
这些用户对应的用户数据集可以从数据库中获取,或者从另外的存储设备获取。
步骤S120:确定各个用户对应的用户数据集中每个准标识符属性对应的目标数据和所述敏感属性对应的敏感数据。
针对每个用户的用户数据集中可以按照上述定义的准标识符的定义,从用户数据集中确定准标识符属性对应的目标数据,如年龄、性别、邮编等准标识符属性对应的目标数据,按照上述定义的敏感属性的定义从用户数据集中确定敏感属性对应的敏感数据,如敏感属性为所患疾病情况、薪酬等敏感属性对应的敏感数据。
当然,用户可以自己定义用户数据集中哪些数据属于准标识符属性,哪些数据属于敏感属性,在确定准标识符属性和敏感属性后,则可以获取准标识符属性和敏感属性各自对应的用户数据。
步骤S130:基于所述目标数据和所述敏感数据,确定每所述准标识符属性和所述敏感属性之间的关联程度。
为了对与敏感属性相关的用户数据进行匿名处理,则还可以基于目标数据和敏感数据,获得准标识符属性和敏感属性之间的关联程度。
其中,计算准标识符属性与敏感属性之间的关联程度的方式可以是将准标识属性对应的各个目标数据分别与敏感属性中的各个敏感数据分别计算其关联度,例如,可以采用预先构建准标识符属性与敏感属性之间的关联规则,例如利用Aprior算法或FP-growth算法构建起关联规则,然后利用其关联规则获得准标识符属性和敏感属性之间的关联程度。
其中,与敏感属性关联程度大的准标识符属性表示其能表明用户的身份的可能性较大,与敏感属性关联程度小的准标识符属性表示其能表明用户的身份的可能性较小。
步骤S140:根据所述关联程度确定所述多个准标识符属性进行K-匿名处理的泛化顺序。
在上述获得各个准标识符属性与敏感属性之间的关联程度后,可基于关联程度确定对准标识符属性的泛化顺序,其中,泛化顺序是指哪个准标识符先泛化,哪个准标识符后泛化,如可将与敏感属性关联程度大的准标识符属性先进行泛化,将与敏感属性关联程度小的准标识符属性后进行泛化。
在上述实现过程中,通过获得准标识符属性与敏感属性之间的关联程度来确定对多个准标识属性的泛化顺序,如可将关联程度大的准标识符属性先进行泛化,从而使得与敏感属性相关的准标识符属性能够被泛化到,攻击者不会轻易定位到用户,避免了用户的隐私信息被轻易泄露的问题,有效提高用户数据的安全性。
另外,由于用户数据集中准标识符属性可能较多,如果对其全部进行泛化,则需要设置较大的K值,处理量较大,所以,还可以对多个准标识符属性进行筛选,获得用户数据集中剩余的至少两个准标识符属性,然后确定各个用户对应的用户数据集中剩余的每个准标识符属性对应的目标数据。
例如,可以对用户数据集中取值个数较小的准标识符属性进行剔除,即可以将取值个数小于预设值的准标识符属性进行剔除,如一般性别属性的取值为男和女,其取值个数为2个,所以,可以将性别属性剔除,获得剩余的准标识符属性对应的目标数据即可。
而为了尽可能保留更多的主要信息,作为一种可选的实施例,还可以采用主成分分析法对多个准标识符属性进行筛选,获得用户数据集中剩余的至少两个准标识符属性。
其中,主成分分析法是数学上对数据降维的一种方法,其基本思想是将原来众多地具有一定相关性的指标重新组合成一组较少个数的互不相关的综合指标来代替原来指标。
例如,将各个目标数据进行标准化后转换为下述矩阵:
Figure BDA0002320505570000111
对上述矩阵求相关系数矩阵:
Figure BDA0002320505570000112
其中,rij(i,j=1,2,...,m)为原变量xi与xj的相关系数,其计算公式如下:
Figure BDA0002320505570000113
解特征方程|λI-R|=0,常用雅可比法求出相关系数矩阵的特征值以及特征值对应的特征向量ei(i=1,2,...,m),要求||ei||=1,即
Figure BDA0002320505570000114
其中,eij表示向量ei的第j个分量。
然后计算主成分贡献率和累计贡献率:
贡献率:
Figure BDA0002320505570000115
累计贡献率:
Figure BDA0002320505570000116
一般取累计贡献率达85%--95%的特征值λ12,...,λp所对应的p个主成分。
确定主成分表达式:Fi=ei1X1+ei2X2+...+eimXm,i=1,2,...,p,其中,(ei1,ei2,...,eim)T为第i个特征值所对应的特征向量。
然后计算主成分载荷:
Figure BDA0002320505570000121
表示主成分与对应变量的相关系数。
再计算主成分的综合得分:
Figure BDA0002320505570000122
其中,bj为第j个主成分的贡献率,由此各个主成分的综合得分即可选取得分高的主成分对应的准标识符属性作为筛选后的剩余的准标识符属性。
可以理解地,上述主成分分析法的具体实现过程可参照现有技术中的详细过程,在此不过多介绍,本申请实施例中利用主成分分析法对多个准标识符属性进行筛选,可有效保留主要的信息,后续对其进行泛化,可使得用户的隐私信息能够得以保护。
另外,作为一种可选的实施例,上述获取准标识符属性与敏感属性之间的关联程度的过程可以为:计算并获得目标数据和敏感数据之间的关联系数,然后根据多个关联系数确定对每个准标识符属性和敏感属性之间的关联程度。
其中,可以采用灰色关联分析法计算并获得目标数据和敏感数据之间的多个关联系数。灰色关联分析法是一种多因素统计分析方法,它是以各因素的样本数据为依据用关联程度来描述因素间关系的强弱、大小和次序,若样本数据反映出的两因素变化的态势(方向、大小和速度)基本一致,则它们之间的关联程度大,反之关联程度小。利用灰色关联分析法获取准标识符属性与敏感属性之间的关联程度可以在很大程度上减少由于信息不对称带来的损失,工作量较少。
下面介绍利用灰色关联分析法获得准标识符属性与敏感属性之间的关联程度的具体过程。
先确定比较数列和参考数列,比较数列为准标识属性对应的目标数据,参考数列为敏感属性对应的敏感数据,假设某个准标识属性有m个,样本数有n个,则参考数列记为x0={x0(k)|k=1,2,...,n},比较数列记为xi={xi(k)|i=1,2,...,m,k=1,2,...,n}。
确定各样本数据对应的权重,可用层次分析法等确定各样本数据对应的权重w=[w1,...,wn],其中,wk(k=1,2,...,n)为第k个样本数据对应的权重。
采用如下公式计算每个目标数据和敏感数据之间的关联系数:
Figure BDA0002320505570000131
其中,ξi(k)为比较数列xi对参考数列x0在第k个样本数据上的关联系数,其中,ρ∈[0,1]为分辨系数,称
Figure BDA0002320505570000132
分别为两级最小差和两级最大差。
其中,分辨系数ρ越大,关联系数间差异越大,区分能力越强,所以,ρ通常取0.5。
如此,按照上述方式,可计算每个准标识符属性中的每个目标数据与敏感数据之间的关联系数,则对于每个准标识符属性与敏感属性之间则获得多个关联系数。
在按照上述方式获得多个关联系数后,可基于多个关联系数确定准标识符属性与敏感属性之间的关联程度,其关联程度可采用如下公式计算获得:
Figure BDA0002320505570000133
其中,ri即为第i个准标识符属性与敏感属性之间的关联程度。
在上述实现过程中,可以将每个目标数据与敏感数据之间的关联系数进行加权获得的加权值作为准标识符属性与敏感属性之间的关联程度。
另外,通过上述计算,每个准标识符属性与敏感属性均会获得多个关联系数,这样关联系数的值很多,信息过于分散,不便于比较,所以还可以计算并获得多个关联系数的关联系数均值,然后将关系系数均值作为对应的准标识符属性和敏感属性之间的关联程度。
如可采用如下公式获得关联程度:
Figure BDA0002320505570000141
在上述实现过程中,将关联系数均值确定为关联程度可更加直观地获得准标识符属性与敏感属性之间的关联程度。
可以理解地,若先对多个准标识符属性进行筛选,则上述获得的关联程度可以是指筛选后剩余的准标识符属性与敏感属性之间的关联程度,若没有对多个准标识符属性进行筛选时,则上述获得的关联程度是指所有的准标识符属性与敏感属性之间的关联程度。
由于各数据的物理意义不同,导致数据的量纲也不一定相同,不便于比较和计算,所以在进行灰色关联分析时,还可以对目标数据和敏感数据分别进行无量纲化处理,获得处理后的目标数据和敏感数据,再将处理后的目标数据和敏感数据进行关联系数计算。
对数据进行无量纲化处理的方法一般有均值化法、初值化法等,均值化法是用平均值去除所有数据,以得到一个占平均值百分比的数列,初值化法是指所有数据均用第一个数据除,然后得到一个新的数列。为了描述的简洁,在本申请实施例中,对于均值化法和初值化法的具体实现过程在此不做过多介绍。
下面以一个具体的实施例对上述的灰色关联分析法进行介绍。
如下表1为4个用户的样本数据,其为各个用户的工作状况数据,其准标识符属性为专业素质、外语水平、教学工作量、科研成果、论文、著作与出勤,其敏感属性为薪酬。
表1
Figure BDA0002320505570000142
Figure BDA0002320505570000151
上述表格中的数据均先进行了无量纲化处理,则可以按照上述方法计算出每个目标数据与对应的敏感数据之间的关联系数,得出的关联系数见下表2所示。
表2
Figure BDA0002320505570000152
然后针对每个准标识符属性,计算其关联系数均值,如专业:0.738,外语:0.798,教学量:0.798,科研:0.604,论文:0.513,著作:0.369,出勤:0.738。这些关联系数均值即作为各个准标识符属性与敏感属性对应的关联程度。
由此,可按照上述方式获得每个准标识符属性与敏感属性之间的关联程度,然后基于关联程度确定多个准标识符属性的泛化顺序。
在上述实施例中,根据关联程度确定多个准标识符属性的泛化顺序可以是根据关联程度的大小顺序确定对多个准标识符属性进行K-匿名处理的泛化先后顺序。
可以理解地,通过上述对多个准标识符属性进行筛选后,以找出哪些准标识符属性与敏感数据的影响较大,换言之,即找出哪些准标识符属性泄露敏感数据的可能性较大,所以可将与敏感属性关联程度大的准标识符属性先进行泛化,将与敏感属性关联程度小的准标识符属性后进行泛化。
如可以将关联程度按照大小顺序进行排序,然后按照关联程度的大小顺序对多个准标识符属性进行泛化。
如上述表2所示,其可以将关联程度大小顺序依次是外语、教学量、专业、出勤、科研、论文、著作,则可按照该顺序对其进行泛化,如先对外语中的各个数据进行泛化,然后再对教学量中的各个数据进行泛化,然后再依次对其他属性进行泛化,直至达到预设的K值即完成泛化,而对于外语和教学量、专业和出勤对应的关联程度一样,所以其泛化顺序可以是任意一个在前即可,如先泛化教学量再泛化外语。
为了使得泛化后的数据损失量较小,则还可以获取每个准标识符属性对应的目标数据的取值个数,根据关联度以及每个准标识符属性对应的目标数据的取值个数,确定对多个准标识符属性进行K-匿名处理的泛化顺序。
如上述表1中,专业的取值个数为4个,外语的取值个数为3个,依次可以获得其他属性对应的取值个数,再结合关联程度,如可将取值个数与关联程度相加获得和值,根据该和值对其进行排序,即按照和值大小顺序对准标识符属性进行排序,将排在前面的准标识符属性先进行泛化,排在后面的准标识符属性后进行泛化。
当然,上述根据关联程度和取值个数来确定准标识符属性的泛化顺序仅为举例,其还可以有其他方式,如将关联程度和取值个数取乘积,根据乘积来确定准标识符属性的泛化顺序等,可以理解地,其他方式也应在本申请的保护范围内。
在上述实现过程中,基于关联程度以及取值个数确定准标识符属性的泛化顺序,可使得关联程度大以及取值个数大的准标识符属性能够先被泛化,可有效抵御链接攻击。
在获得泛化顺序后,可以按照泛化顺序依次对多个准标识符属性进行泛化处理,直至总的泛化层次达到预设K值。
其泛化的过程可以如图3所示,图3仅对某个准标识符属性中的数据进行泛化的示例,为了使得泛化后数据损失量较小,采用数据精度评价K-匿名算法的一个指标,数据精度度量标准是基于泛化层级的数据表精度度量标准Precision(PT),定义如下:
Figure BDA0002320505570000171
其中,|Aij|是该准标识符属性可泛化的最高层次树,i是K-匿名后数据表PT中第j条记录的第i个准标识符属性被泛化的次数,|PT|是给定数据表PT中记录的数量,|NA|是给定数据表中PT中所包含的准标识符属性数目。
本申请实施例中可以采用改进的Datafly算法来进行泛化,先设定泛化层次K值和需泛化的准标识符属性极其泛化层次,即针对每个准标识符属性均设置一个可泛化层级,按照其要求依次对准标识符属性进行泛化,直至总的泛化层次达到预设K值,其具体的泛化过程可参照现有技术中的相关描述,为了描述的简洁,在此不再过多赘述。
请参照图4,图4为本申请实施例提供的一种数据处理装置200的结构框图,该装置200可以是电子设备上的模块、程序段或代码。应理解,该装置200与上述图2方法实施例对应,能够执行图2方法实施例涉及的各个步骤,该装置200具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
可选地,所述装置200包括:
用户数据获取模块210,用于获取多个用户中每个用户对应的用户数据集,所述用户数据集包括对应的用户在各个不同个人属性中的个人数据,所述个人属性包括敏感属性和多个准标识符属性;
属性数据确定模块220,用于确定各个用户对应的用户数据集中每个准标识符属性对应的目标数据和所述敏感属性对应的敏感数据;
关联程度获取模块230,用于基于所述目标数据和所述敏感数据,确定每个所述准标识符属性和所述敏感属性之间的关联程度;
泛化顺序确定模块240,用于根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序。
可选地,所述关联程度获取模块230,用于计算并获得每个所述目标数据和所述敏感数据之间的关联系数;根据多个所述关联系数确定每个所述准标识符属性和所述敏感属性之间的关联程度。
可选地,所述关联程度获取模块230,还用于采用灰色关联分析法计算并获得每个所述目标数据和所述敏感数据之间的关联系数。
可选地,所述关联程度获取模块230,用于计算并获得多个所述关联系数的关联系数均值;将所述关联系数均值确定为对应的准标识符属性和所述敏感属性之间的关联程度。
可选地,所述关联程度获取模块230,还用于对所述目标数据和所述敏感数据分别进行无量纲化处理,获得处理后的目标数据和敏感数据。
可选地,所述属性数据确定模块220,用于对所述多个准标识符属性进行筛选,获得所述用户数据集中剩余的至少两个准标识符属性;确定各个用户对应的用户数据集中剩余的每个准标识符属性对应的目标数据和所述敏感属性对应的敏感数据。
可选地,所述属性数据确定模块220,用于采用主成分分析法对所述多个准标识符属性进行筛选,获得所述用户数据集中剩余的至少两个准标识符属性。
可选地,所述泛化顺序确定模块240,用于根据所述关联程度的大小顺序确定对所述多个准标识符属性进行K-匿名处理的泛化先后顺序。
可选地,所述泛化顺序确定模块240,用于获取每个所述准标识符属性对应的目标数据的取值个数;根据所述关联程度以及每个所述准标识符属性对应的目标数据的取值个数,确定对所述多个准标识符属性进行K-匿名处理的泛化顺序。
可选地,所述装置200还包括:
泛化模块,用于按照所述泛化顺序依次对所述多个准标识符属性进行泛化处理,直至总的泛化层次达到预设K值。
本申请实施例提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图2所示方法实施例中电子设备所执行的方法过程。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如,包括:获取多个用户中每个用户对应的用户数据集,所述用户数据集包括对应的用户在各个不同个人属性中的个人数据,所述个人属性包括敏感属性和多个准标识符属性;确定各个用户对应的用户数据集中每个准标识符属性对应的目标数据和所述敏感属性对应的敏感数据;基于所述目标数据和所述敏感数据,确定每个所述准标识符属性和所述敏感属性之间的关联程度;根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序。
综上所述,本申请实施例提供一种数据处理方法、装置、电子设备及可读存储介质,通过获得准标识符属性与敏感属性之间的关联程度来确定对多个准标识属性的泛化顺序,如可将关联程度大的准标识符属性先进行泛化,从而使得与敏感属性相关的准标识符属性能够被泛化到,攻击者不会轻易定位到用户,避免了用户的隐私信息被轻易泄露的问题。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种数据处理方法,其特征在于,所述方法包括:
获取多个用户中每个用户对应的用户数据集,所述用户数据集包括对应的用户在各个不同个人属性中的个人数据,所述个人属性包括敏感属性和多个准标识符属性;
确定各个用户对应的用户数据集中每个准标识符属性对应的目标数据和所述敏感属性对应的敏感数据;
基于所述目标数据和所述敏感数据,确定每个所述准标识符属性和所述敏感属性之间的关联程度;
根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标数据和所述敏感数据,确定每个所述准标识符属性和所述敏感属性之间的关联程度,包括:
计算并获得每个所述目标数据和所述敏感数据之间的关联系数;
根据多个所述关联系数确定每个所述准标识符属性和所述敏感属性之间的关联程度。
3.根据权利要求2所述的方法,其特征在于,所述计算并获得所述目标数据和所述敏感数据之间的多个关联系数,包括:
采用灰色关联分析法计算并获得每个所述目标数据和所述敏感数据之间的关联系数。
4.根据权利要求2所述的方法,其特征在于,所述根据多个所述关联系数确定每个所述准标识符属性和所述敏感属性之间的关联程度,包括:
计算并获得多个所述关联系数的关联系数均值;
将所述关联系数均值确定为对应的准标识符属性和所述敏感属性之间的关联程度。
5.根据权利要求2所述的方法,其特征在于,所述计算并获得每个所述目标数据和所述敏感数据之间的关联系数之前,还包括:
对所述目标数据和所述敏感数据分别进行无量纲化处理,获得处理后的目标数据和敏感数据。
6.根据权利要求1所述的方法,其特征在于,所述确定各个用户对应的用户数据集中每个准标识符属性对应的目标数据,包括:
对所述多个准标识符属性进行筛选,获得所述用户数据集中剩余的至少两个准标识符属性;
确定各个用户对应的用户数据集中剩余的每个准标识符属性对应的目标数据。
7.根据权利要求6所述的方法,其特征在于,所述对所述多个准标识符属性进行筛选,获得所述用户数据集中剩余的至少两个准标识符属性,包括:
采用主成分分析法对所述多个准标识符属性进行筛选,获得所述用户数据集中剩余的至少两个准标识符属性。
8.根据权利要求1-7任一所述的方法,其特征在于,所述根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序,包括:
根据所述关联程度的大小顺序确定对所述多个准标识符属性进行K-匿名处理的泛化先后顺序。
9.根据权利要求1所述的方法,其特征在于,所述根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序,包括:
获取每个所述准标识符属性对应的目标数据的取值个数;
根据所述关联程度以及每个所述准标识符属性对应的目标数据的取值个数,确定对所述多个准标识符属性进行K-匿名处理的泛化顺序。
10.根据权利要求1所述的方法,其特征在于,所述根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序之后,还包括:
按照所述泛化顺序依次对所述多个准标识符属性进行泛化处理,直至总的泛化层次达到预设K值。
11.一种数据处理装置,其特征在于,所述装置包括:
用户数据获取模块,用于获取多个用户中每个用户对应的用户数据集,所述用户数据集包括对应的用户在各个不同个人属性中的个人数据,所述个人属性包括敏感属性和多个准标识符属性;
属性数据确定模块,用于确定各个用户对应的用户数据集中每个准标识符属性对应的目标数据和所述敏感属性对应的敏感数据;
关联程度获取模块,用于基于所述目标数据和所述敏感数据,确定每个所述准标识符属性和所述敏感属性之间的关联程度;
泛化顺序确定模块,用于根据所述关联程度确定对所述多个准标识符属性进行K-匿名处理的泛化顺序。
12.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-10任一所述的方法。
13.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-10任一所述的方法。
CN201911300117.0A 2019-12-16 2019-12-16 数据处理方法、装置、电子设备及可读存储介质 Pending CN111079179A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911300117.0A CN111079179A (zh) 2019-12-16 2019-12-16 数据处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911300117.0A CN111079179A (zh) 2019-12-16 2019-12-16 数据处理方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN111079179A true CN111079179A (zh) 2020-04-28

Family

ID=70314919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911300117.0A Pending CN111079179A (zh) 2019-12-16 2019-12-16 数据处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111079179A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035874A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种数据匿名化处理的方法及装置
CN113612803A (zh) * 2021-10-08 2021-11-05 国网电子商务有限公司 一种数据隐私的保护方法、装置、存储介质和电子设备
CN113742781A (zh) * 2021-09-24 2021-12-03 湖北工业大学 一种k匿名聚类隐私保护方法、系统、计算机设备、终端
CN114238280A (zh) * 2021-12-20 2022-03-25 中电金信软件有限公司 构建金融敏感信息标准库的方法、装置及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2228735A2 (en) * 2009-03-12 2010-09-15 Deutsche Telekom AG Efficient multi-dimensional suppression for k-anonymity
CN103201748A (zh) * 2010-11-09 2013-07-10 日本电气株式会社 匿名化装置和匿名化方法
CN104766020A (zh) * 2015-04-24 2015-07-08 广西师范大学 商务数据匿名发布中的极小信息损失控制方法
CN106650487A (zh) * 2016-09-29 2017-05-10 广西师范大学 基于多维敏感数据发布的多部图隐私保护方法
CN106940777A (zh) * 2017-02-16 2017-07-11 湖南宸瀚信息科技有限责任公司 一种基于敏感信息度量的身份信息隐私保护方法
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN108363928A (zh) * 2018-02-08 2018-08-03 广西师范大学 关联医疗数据中的自适应差分隐私保护方法
CN109815740A (zh) * 2019-02-19 2019-05-28 陕西艾特信息化工程咨询有限责任公司 一种基于准标识属性泛化层高度的k-匿名隐私保护方法
CN110390211A (zh) * 2019-07-30 2019-10-29 广东工业大学 一种敏感属性数据的处理方法及系统
CN110443068A (zh) * 2019-08-01 2019-11-12 中国科学院信息工程研究所 隐私保护方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2228735A2 (en) * 2009-03-12 2010-09-15 Deutsche Telekom AG Efficient multi-dimensional suppression for k-anonymity
CN103201748A (zh) * 2010-11-09 2013-07-10 日本电气株式会社 匿名化装置和匿名化方法
CN104766020A (zh) * 2015-04-24 2015-07-08 广西师范大学 商务数据匿名发布中的极小信息损失控制方法
CN106650487A (zh) * 2016-09-29 2017-05-10 广西师范大学 基于多维敏感数据发布的多部图隐私保护方法
CN106940777A (zh) * 2017-02-16 2017-07-11 湖南宸瀚信息科技有限责任公司 一种基于敏感信息度量的身份信息隐私保护方法
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN108363928A (zh) * 2018-02-08 2018-08-03 广西师范大学 关联医疗数据中的自适应差分隐私保护方法
CN109815740A (zh) * 2019-02-19 2019-05-28 陕西艾特信息化工程咨询有限责任公司 一种基于准标识属性泛化层高度的k-匿名隐私保护方法
CN110390211A (zh) * 2019-07-30 2019-10-29 广东工业大学 一种敏感属性数据的处理方法及系统
CN110443068A (zh) * 2019-08-01 2019-11-12 中国科学院信息工程研究所 隐私保护方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035874A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种数据匿名化处理的方法及装置
CN113742781A (zh) * 2021-09-24 2021-12-03 湖北工业大学 一种k匿名聚类隐私保护方法、系统、计算机设备、终端
CN113742781B (zh) * 2021-09-24 2024-04-05 湖北工业大学 一种k匿名聚类隐私保护方法、系统、计算机设备、终端
CN113612803A (zh) * 2021-10-08 2021-11-05 国网电子商务有限公司 一种数据隐私的保护方法、装置、存储介质和电子设备
CN114238280A (zh) * 2021-12-20 2022-03-25 中电金信软件有限公司 构建金融敏感信息标准库的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN111079179A (zh) 数据处理方法、装置、电子设备及可读存储介质
JP7169369B2 (ja) 機械学習アルゴリズムのためのデータを生成する方法、システム
Chen et al. Correlation coefficients of hesitant fuzzy sets and their applications to clustering analysis
EP3418910A1 (en) Big data-based method and device for calculating relationship between development objects
DE202012013462U1 (de) Datenverarbeitung in einem Mapreduce-Framework
US20220222374A1 (en) Data protection
CN108924120B (zh) 一种多维状态感知的动态访问控制方法
CN110825757A (zh) 一种设备行为风险分析方法及系统
CN113761185B (zh) 主键提取方法、设备及存储介质
CN113448955B (zh) 数据集质量评估方法、装置、计算机设备及存储介质
CN112200684A (zh) 一种检测医保欺诈的方法、系统及存储介质
US11620406B2 (en) Information processing device, information processing method, and recording medium
CN113111063A (zh) 一种应用于多数据源的医疗患者主索引发现方法
CN113642672A (zh) 医保数据的特征加工方法、装置、计算机设备及存储介质
CN107229605B (zh) 文本相似度的计算方法及装置
CN115422924A (zh) 一种信息匹配方法、装置、电子设备及存储介质
Magno et al. Stereotypes in search engine results: understanding the role of local and global factors
CN113743496B (zh) 一种基于聚类映射的k-匿名数据处理方法及系统
WO2022012380A1 (en) Improved entity resolution of master data using qualified relationship score
Patel et al. A study on data perturbation techniques in privacy preserving data mining
CN115952156A (zh) 一种数据清洗方法、装置、计算机设备及可读介质
CN115829371A (zh) 一种应用于政务领域的数据质量评估方法及相关装置
CN115879819A (zh) 企业信用评估方法及装置
Antoniou et al. Assessing the risk of re-identification arising from an attack on anonymised data
Landsman et al. Efficient analysis of case‐control studies with sample weights

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination