CN112329070B - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN112329070B CN112329070B CN202011383257.1A CN202011383257A CN112329070B CN 112329070 B CN112329070 B CN 112329070B CN 202011383257 A CN202011383257 A CN 202011383257A CN 112329070 B CN112329070 B CN 112329070B
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- processed
- data set
- sensitive attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000003860 storage Methods 0.000 claims description 13
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 claims description 2
- 230000002829 reductive effect Effects 0.000 abstract description 18
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000000670 limiting effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种数据处理方法及装置,确定待处理数据集中作为簇的质心的一条数据;根据待处理数据集中剩余的数据与质心之间的距离,从剩余的数据中选取第一预设数量的数据加入簇中;确定簇中敏感属性字段具有的敏感属性值的个数;如果个数小于预设个数,根据待处理数据集中没有加入簇中的数据与质心之间的距离,从没有加入簇中的数据中选取数据加入到簇中,直至个数等于或大于预设个数,使得簇中同一个敏感属性字段的不同的敏感属性值的个数至少为预设个数,这样在攻击过程中因为簇中同一个敏感属性字段至少有预设个数的敏感属性值,因此根据该敏感属性字段的多个敏感属性值不能轻易得到敏感属性值,提高数据安全性,降低隐私泄露的几率。
Description
技术领域
本公开属于数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
在企业生产过程中采集的原始数据包含隐私信息,如包含用户身份信息以及与用户身份信息相关的其他个人隐私信息等,如果发布包含隐私信息的原始数据会出现隐私泄露问题。为了降低隐私泄露,通过将原始数据进行匿名、交换和加入噪音数据中的至少一种方式对原始数据进行脱敏,目前这三种方式中常用脱敏方式是对原始数据进行数据脱敏处理,简称数据匿名化处理,数据匿名化处理通过对原始数据中的属性字段和敏感属性值中的至少一种进行泛化、抑制等脱敏操作,使得原始数据中的标识隐私信息的属性字段和敏感属性值之间失去一一对应的关系,从而达到隐私保护的效果。
其中数据匿名化处理可通过K-匿名算法对原始数据进行数据脱敏处理,K-匿名算法对原始数据中的属性字段,如一条记录的唯一的标识符进行数据脱敏处理,使得攻击者在通过K-匿名算法得到的簇中能够锁定最少K条数据。虽然攻击过程中能够锁定最少K条数据,但是等价类中多条数据含有相同的敏感属性值,使得攻击者可以容易地确定目标对象具有的敏感属性值,导致隐私泄露,降低数据安全性。
发明内容
有鉴于此,本公开的目的在于提供一种数据处理方法及装置,用于提高数据安全性,降低隐私泄露的几率。技术方案如下:
一方面,本公开提供一种数据处理方法,所述方法包括:
确定待处理数据集中作为簇的质心的一条数据;
根据所述待处理数据集中剩余的数据与所述质心之间的距离,从所述剩余的数据中选取第一预设数量的数据加入所述簇中;
确定所述簇中敏感属性字段具有的不同的敏感属性值的个数,所述敏感属性字段为所述簇中具有隐私信息的内容;
如果所述簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据所述待处理数据集中没有加入所述簇中的数据与所述质心之间的距离,从没有加入所述簇中的数据中选取数据加入到所述簇中,直至所述簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于所述预设个数。
另一方面,本公开提供一种数据处理装置,所述装置包括:
第一确定单元,用于确定待处理数据集中作为簇的质心的一条数据;
聚类单元,用于根据所述待处理数据集中剩余的数据与所述质心之间的距离,从所述剩余的数据中选取第一预设数量的数据加入所述簇中;
第二确定单元,用于确定所述簇中敏感属性字段具有的不同的敏感属性值的个数,所述敏感属性字段为所述簇中具有隐私信息的内容;
添加单元,用于如果所述簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据所述待处理数据集中没有加入所述簇中的数据与所述质心之间的距离,从没有加入所述簇中的数据中选取数据加入到所述簇中,直至所述簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于所述预设个数。
再一方面,本公开提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述数据处理方法。
再一方面,本公开提供一种计算机存储介质,当所述计算机存储介质中的程序由电子设备的处理器执行时,使得电子设备能够执行上述数据处理方法。
上述数据处理方法及装置,确定待处理数据集中作为簇的质心的一条数据;根据待处理数据集中剩余的数据与质心之间的距离,从剩余的数据中选取第一预设数量的数据加入簇中;确定簇中敏感属性字段具有的敏感属性值的个数;如果簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据待处理数据集中没有加入簇中的数据与质心之间的距离,从没有加入簇中的数据中选取数据加入到簇中,直至簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于预设个数,使得簇中同一个敏感属性字段的不同的敏感属性值的个数至少为预设个数,这样在攻击过程中因为簇中同一个敏感属性字段至少有预设个数的敏感属性值,说明同一个敏感属性字段的取值不唯一,因此根据该敏感属性字段的多个敏感属性值不能轻易得到敏感属性值,提高数据安全性,降低隐私泄露的几率。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1是本公开实施例提供的一种数据处理方法的流程图;
图2是现有技术提供的一种确定簇的质心的示意图;
图3是本公开实施例提供的一种确定簇的质心的示意图;
图4是本公开实施例提供的另一种数据处理方法的流程图;
图5是本公开实施例提供的再一种数据处理方法的流程图;
图6是本公开实施例提供的一种数据处理装置的结构示意图;
图7是本公开实施例提供的一种数据处理装置的结构示意图;
图8是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
请参见图1,其示出了本公开实施例提供的一种数据处理方法的可选流程,可以包括以下步骤:
101:确定待处理数据集中作为簇的质心的一条数据。
其中簇可以作为待处理数据集中数据所属的等价类,待处理数据集中具有特定关系的数据可以聚类至同一个簇中,如待处理数据集中两条数据之间的距离小于预设距离,确定距离小于预设距离的两条数据相似,则这两条数据可以聚类至同一个簇中。预设距离是用来描述两条数据相似的参考距离,对于预设距离的取值本实施例不进行限定。
在对待处理数据集进行聚类得到待处理数据集对应的簇的过程中,针对任一簇从待处理数据集中选择作为质心的一条数据,以作为质心的数据为基础确定待处理数据集中加入簇的各条数据。在本实施例中,对于待处理数据集中的不同簇,确定作为簇的质心的数据的方式可以不同,一种确定作为簇的质心的数据的方式如下:
如果簇为待处理数据集对应的第一个簇,从待处理数据集中随机选取一条数据作为第一个簇的质心,因为在聚类得到待处理数据集对应的第一个簇过程中没有其他簇作为参照比对,所以本实施例可随机选取一条数据作为第一个簇的质心。
如果簇为待处理数据集对应的第二个簇,根据待处理数据集中没有加入第一个簇的数据与第一个簇的质心之间的距离,从没有加入第一个簇的数据中选取一条数据作为第二个簇的质心。在聚类得到待处理数据集对应的第二个簇过程中已经得到第一个簇,因此在聚类得到第二个簇过程中以第一个簇为参照比对来聚类得到第二个簇,参照比对主要涉及第二个簇的质心选取过程,如根据待处理数据集中没有加入第一个簇中的数据与第一个簇的质心之间的距离,从没有加入第一个簇的数据中确定距离最大的数据,即距离第一个簇的质心最远的数据作为第二个簇的质心,以降低第二个簇的信息损失,防止第二个簇中的数据出现过多抑制值的情况。
如果簇为待处理数据集对应的第一个簇和第二个簇之外的簇(即第三个簇以及第三个簇之后构建的簇中的任意一个簇),根据待处理数据集中没有加入已有簇的数据与已有簇的质心之间的距离和,从待处理数据集中没有加入已有簇的数据中选取一条数据作为簇的质心。
其中已有簇是在当前簇之前已经完成聚类所得到的簇,例如当前聚类得到待处理数据集对应的第三个簇,则已有簇为待处理数据集对应的第一个簇和第二个簇;如果当前聚类得到待处理数据集对应的第六个簇,则已有簇为待处理数据集对应的第一个簇至第五个簇。
针对待处理数据集对应的第一个簇和第二个簇之外的其他簇,其质心选取过程以所有的已有簇为参照比对,根据与所有的已有簇的质心之间的距离和进行质心选取,例如一种选取方式如下:
根据待处理数据集中没有加入已有簇的数据与已有簇的质心之间的距离和,从待处理数据集中没有加入已有簇的数据中确定距离和最大的数据,将距离和最大的数据作为簇的质心。
目前聚类得到待处理数据集对应的第一个簇和第二个簇之外的其他簇过程中,其质心选取过程是以上一个簇为参照比对,都会从待处理数据集中没有加入已有簇的数据中确定与上一个簇距离最大的数据,即将距离上一个簇的质心最远的数据作为当前簇的质心。以图2为例进行说明,在选取第三个簇的质心过程中,目前聚类得到待处理数据集的第三个簇时选择表征A点的数据作为质心,因为A点是待处理数据集的剩余数据(即没有加入到任一簇的数据)中距离上一个簇(图2中的cluster2)的质心最远的数据,但A点却距离第一个簇(图2中的cluster1)较近,使得聚类过程出现局部最优且不能确保簇分部的均匀性,并且第三个簇与第一个簇距离较近使得第三个簇的信息损失过大且第三个簇中的数据出现过多的抑制值的情况。
针对这一情况,本实施例以根据待处理数据集中没有加入已有簇的数据与已有簇的质心之间的距离和,从待处理数据集中没有加入已有簇的数据中确定距离和最大的数据作为簇的质心,等同于计算距离已有簇的质心的平均距离最大值,综合考虑当前簇与已有簇之间的距离关系,保证了簇分布的合理性且避免局部最优,因为本实施例能够综合考虑当前簇与已有簇之间的距离关系,确保不会与某个已有簇之间的距离过近,所以本实施例质心选取方式能够降低簇中信息损失,以避免出现过多的抑制值的情况。例如针对图2的待处理数据集,在选取第三个簇的质心过程中,参照第一个簇和第二个簇的质心,将表征C点的数据作为第三个簇(图3中的cluster3)的质心,防止第三个簇的质心与第一个簇的质心过近。
102:根据待处理数据集中剩余的数据与质心之间的距离,从剩余的数据中选取第一预设数量的数据加入簇中。
如根据待处理数据集中剩余的数据与质心之间的距离,按照距离由小到大方式从剩余的数据中选取第一预设数量的数据,并将选取的第一预设数量的数据加入到簇中。其中第一预设数量用于限定在按照距离选取数据时能够加入到簇中的数据的数量,对于第一预设数量的取值本实施例不进行限定。如第一预设数量的取值可以是但不限于是K匿名算法对应的K与数值1之间的差值,使得待处理数据集对应的簇满足K-匿名要求。
103:确定簇中敏感属性字段具有的不同的敏感属性值的个数,敏感属性字段为簇中具有隐私信息的内容,如敏感属性字段为指向用户隐私信息的字段,如指向用户身份信息的字段,对于敏感属性字段本实施例不进行限定。
簇中敏感属性字段具有的不同的敏感属性值是针对簇中任一敏感属性字段来说,在一个簇中同一个敏感属性字段可以对应多个不同的敏感属性值,使得在一个簇中同一个敏感属性字段的取值不唯一,这样即便攻击任一簇因为簇中同一个敏感属性字段的取值不唯一,以提高获取唯一的敏感属性值的难度,从而提高数据安全性,降低隐私泄露的几率。同一个簇中的数据可以被泛化成具有相同的准标识符的值,在通过准标识符进行攻击时确定出多个敏感属性值,也可以提高获取唯一的敏感属性值的难度。
在目前聚类得到待处理数据集对应的各个簇过程中以敏感属性字段对应的敏感属性值为先进行数据聚类,以上述图2所示为例,假设图2中三角形、正方形和圆形代表敏感属性字段的不同敏感属性值。当第二个簇已经涵盖两个圆形数据点和两个正方形数据点时,查找待处理数据集中第三种不同敏感属性值的数据,即图2中的三角形数据点来实现L多样性的安全性要求,这种方式虽然能够满足L多样性的安全性要求,但是会造成过多的孤立点(如图2中的B点)且满足L多样性的安全性要求的各条数据之间的距离可能会存在取值较大的数据,使得簇中信息损失增大。
而本实施例在聚类过程中获取待处理数据集中剩余的数据与质心之间的距离,根据距离选取加入到簇中的数据(如图3中将B点加入到第二个簇中),然后再进行敏感属性值的判断,如按距离由小到大选取K-1条合并到簇中,使得簇满足K-匿名要求,然后判断不同的敏感属性值的个数,以在满足K匿名要求的情况下满足L多样性的安全性要求。因为根据距离选取加入到簇中的数据,降低聚类过程产生的孤立点的数量,减小了处理孤立点造成的额外性能损失。
并且在聚类过程中先考虑L多样性的安全性要求会将不相关的数据强行加入到一个簇中,使得簇中数据泛化程度提高,提高信息损失,而本实施例以距离为优先条件进行聚类,避免为达到L多样化的安全性要求将不相关的数据强行加入到一个簇中,使得簇中数据泛化程度降低,信息损失大大减小,结合以距离和选择质心的方式使得同一个簇中各条数据更紧凑,密度更高,以在安全性不变的前提下,提升了数据精度,数据可用性更高,且因为数据精度提升使得同一个簇中数据尽可能的暴露可供数据挖掘的价值。
相对应的预设个数可以是用于指示完成对待处理数据集的一次聚类以得到一个簇的条件,如果簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于预设个数,指示完成对待处理数据集的一次聚类,得到待处理数据集对应的簇。而一个簇能够满足L多样性的安全性要求,L用于限定一个簇中不同的敏感属性值的个数,因此本实施例中的预设个数可以是但不限于是L多样性的安全性要求对应的L,对于L的取值本实施例不进行限定。
104:如果簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据待处理数据集中没有加入簇的数据中与质心之间的距离,从没有加入簇的数据中选取数据加入到簇中,直至簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于预设个数。
如果簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,说明需要继续向簇中加入数据,使得簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于预设个数。在向簇中加入数据过程中可根据待处理数据集中没有加入簇中的数据与质心之间的距离,从没有加入簇中的数据中选取数据加入到簇中,如根据待处理数据集中没有加入簇的数据与质心之间的距离,按照距离由小到大方式从没有加入簇的数据中选取数据加入到簇中。
上述数据处理方法,确定待处理数据集中作为簇的质心的一条数据;根据待处理数据集中剩余的数据与质心之间的距离,从剩余的数据中选取第一预设数量的数据加入簇中;确定簇中敏感属性字段具有的敏感属性值的个数;如果簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据待处理数据集中没有加入簇中的数据与质心之间的距离,从没有加入簇中的数据中选取数据加入到簇中,直至簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于预设个数,使得簇中同一个敏感属性字段的不同的敏感属性值的个数至少为预设个数,这样在攻击过程中因为簇中同一个敏感属性字段至少有预设个数的敏感属性值,说明同一个敏感属性字段的取值不唯一,因此根据该敏感属性字段的多个敏感属性值不能轻易得到敏感属性值,提高数据安全性,降低隐私泄露的几率。
假如上述第一预设数量的取值为K匿名算法对应的K与数值1之间的差值,预设个数的取值为L多样性的安全性要求对应的L,则待处理数据集对应的任一簇满足K匿名需求和L多样性的安全性要求。
请参见图4,其示出了本公开实施例提供的另一种数据处理方法的可选流程,阐述簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于预设个数的情况下对待处理数据集的处理过程,在上述图1基础上,还可以包括以下步骤:
105:如果簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于预设个数,完成对待处理数据集的一次聚类以得到簇,并确定待处理数据集中没有加入已有簇的数据的数量。
如果簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于预设个数,指示完成对待处理数据集的一次聚类,得到待处理数据集对应的簇。在得到待处理数据集对应的任一簇之后,需要确定待处理数据集中没有加入已有簇的数据的数量,以判断待处理数据集中当前剩余的数据是否能够再次进行聚类。
在本实施例中,判断待处理数据集中当前剩余的数据是否能够再次进行聚类的一种方式是:预先设置第二预设数量,第二预设数量用于指示待处理数据集能够再次进行聚类时所剩余的数据的数量,且第二预设数量大于第一预设数量,如第二预设数量与第一预设数量的关系可以是但不限于是:第二预设数量=第一预设数量+1。
如果待处理数据集中当前剩余的数据(即没有加入已有簇的数据)的数量大于或等于第二预设数量,确定可针对待处理数据集中剩余的数据进行聚类,相对应的执行步骤106;如果待处理数据集中当前剩余的数据(即没有加入已有簇的数据)的数量小于第二预设数量,确定禁止针对待处理数据集中剩余的数据进行聚类,相对应的执行步骤107。
106:如果待处理数据集中没有加入已有簇的数据的数量大于或等于第二预设数量,返回执行确定待处理数据集中作为簇的质心的一条数据,以继续进行待处理数据集对应的下一个簇的聚类。
如果待处理数据集中没有加入已有簇的数据的数量大于或等于第二预设数量,确定待处理数据集中作为簇的质心的一条数据的过程需要视当前簇为待处理数据集对应的第几个簇,在当前簇为第一个簇、第二个簇以及第二个簇之后的其他簇中的任一簇过程中,其确定质心的过程可满足降低信息损失的要求,过程请参见上述实施例中的说明,本实施例不再阐述。
107:如果待处理数据集中没有加入已有簇的数据的数量小于第二预设数量,根据没有加入已有簇的数据与已有簇的质心之间的距离,将没有加入已有簇的数据加入到已有簇中。
如根据待处理数据集中没有加入已有簇的数据与已有簇的质心之间的距离,按照距离由小到大方式从没有加入已有簇的数据中选取数据加入到已有簇中,从而将待处理数据集中没有加入已有簇的数据加入到与其相似的数据所在簇中,完成对待处理数据集的聚类。
上述数据处理方法,如果簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于预设个数,确定待处理数据集中没有加入已有簇的数据的数量,以判断待处理数据集中当前剩余的数据是否能够再次进行聚类,如果待处理数据集中没有加入已有簇的数据的数量大于或等于第二预设数量,返回执行确定待处理数据集中作为簇的质心的一条数据,以继续进行待处理数据集对应的下一个簇的聚类,使得聚类得到的下一个簇能够至少满足K匿名要求,如果待处理数据集中没有加入已有簇的数据的数量小于第二预设数量,根据没有加入已有簇的数据与已有簇的质心之间的距离,将没有加入已有簇的数据加入到已有簇中,以将待处理数据集中没有加入已有簇的数据加入到与其相似的数据所在簇中,降低簇中信息损失。
请参见图5,其示出了本公开实施例提供的再一种数据处理方法的可选流程,可以包括以下步骤:
201:根据原始数据集中每条数据的缺失值,对原始数据集中的数据进行缺失值处理,得到修正数据集。
原始数据集是采集过程中获取到的数据所在数据集,原始数据集中的数据可能会存在异常,如原始数据集中的数据可能会存在缺失情况,针对这种情况本实施例在完成数据采集得到原始数据集后,确定原始数据集中每条数据的缺失值,缺失值用于表征数据的缺失程度。
如果原始数据集中一条数据的缺失值大于或等于预设缺失值,确定该条数据缺失程度大,通过该条数据中的已有数值以及与该条数据具有关系的数据不能恢复该条数据缺失的内容,则删除缺失值大于或等于预设缺失值的数据;如果原始数据集中一条数据的缺失值小于预设缺失值,确定该条数据缺失程度小,通过该条数据中的已有数值和与该条数据具有关系的数据中的至少一种能够恢复该条数据缺失的内容,则对于缺失值小于预设缺失值的数据,根据该条数据中的已有数值和与该条数据具有关系的数据中的至少一种能够恢复该条数据缺失的内容,具体恢复过程本实施例不再阐述。预设缺失值作为评判原始数据集中数据能否恢复的条件,对于预设缺失值的取值本实施例不进行限定。
根据原始数据集中数据的缺失值对原始数据集中的数据进行缺失值处理后,原始数据集中进行缺失值处理后的数据作为修正数据集中的每条数据,从而得到修正数据集。
202:确定修正数据集中的分类型数据和修正数据集中的数值型数据,对分类型数据和数值型数据进行泛化处理。
分类型数据是修正数据集中数据类型为分类型的数据,数值型数据是修正数据集中数据类型为数值型的数据,修正数据集中数据类型的确定可根据修正数据集中每条数据的属性字段的含义确定,本实施例不进行阐述。泛化处理的目的是模糊数据精度,将可区分的不同数据变得不可区分,提高数据安全性,以达到满足数据发布者对隐私数据的保密要求,且保证数据不会过度失真以维持数据可用性。本实施例通过对分类型数据和数值型数据分别进行泛化树构建,实现对分类型数据和数值型数据的泛化处理。
203:将泛化处理后的数据和修正数据集中的其他类型数据作为待处理数据集中的数据。
204:确定待处理数据集中作为簇的质心的一条数据。
205:根据待处理数据集中剩余的数据与质心之间的距离,从剩余的数据中选取第一预设数量的数据加入簇中。
206:确定簇中敏感属性字段具有的不同的敏感属性值的个数。
207:如果簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据待处理数据集中没有加入簇的数据中与质心之间的距离,从没有加入簇的数据中选取数据加入到簇中,直至簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于预设个数。
附图中的流程图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,流程图中的每个方框、以及流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
请参见图6,其示出了本公开实施例提供的一种数据处理装置的可选结构,可以包括:第一确定单元10、聚类单元20、第二确定单元30和添加单元40。
第一确定单元10,用于确定待处理数据集中作为簇的质心的一条数据。一种确定簇的质心的方式如下:
如果簇为待处理数据集对应的第一个簇,从待处理数据集中随机选取一条数据作为第一个簇的质心。
如果簇为待处理数据集对应的第二个簇,根据待处理数据集中没有加入第一个簇的数据与第一个簇的质心之间的距离,从待处理数据集中没有加入第一个簇的数据中选取一条数据作为第二个簇的质心。
如果簇为待处理数据集对应的第一个簇和第二个簇之外的簇,根据待处理数据集中没有加入已有簇的数据与已有簇的质心之间的距离和,从待处理数据集中没有加入已有簇的数据中选取一条数据作为簇的质心。例如根据待处理数据集中没有加入已有簇的数据与已有簇的质心之间的距离和,从没有加入已有簇的数据中确定距离和最大的数据;将距离和最大的数据作为簇的质心。
本实施例以根据待处理数据集中没有加入已有簇的数据与已有簇的质心之间的距离和,从待处理数据集中没有加入已有簇的数据中确定距离和最大的数据作为簇的质心,等同于计算距离已有簇的质心的平均距离最大值,综合考虑当前簇与已有簇之间的距离关系,保证了簇分布的合理性且避免局部最优,因为本实施例能够综合考虑当前簇与已有簇之间的距离关系,确保不会与某个已有簇之间的距离过近,所以本实施例质心选取方式能够降低簇中信息损失,以避免出现过多的抑制值的情况。
聚类单元20,用于根据待处理数据集中剩余的数据与质心之间的距离,从剩余的数据中选取第一预设数量的数据加入簇中。
如根据待处理数据集中剩余的数据与质心之间的距离,按照距离由小到大方式从剩余的数据中选取第一预设数量的数据,并将选取的第一预设数量的数据加入到簇中。其中第一预设数量用于限定在按照距离选取数据时能够加入到簇中的数据的数量,对于第一预设数量的取值本实施例不进行限定。如第一预设数量的取值可以是但不限于是K匿名算法对应的K与数值1之间的差值,使得待处理数据集对应的簇满足K-匿名要求。
第二确定单元30,用于确定簇中敏感属性字段具有的不同的敏感属性值的个数,敏感属性字段为簇中具有隐私信息的内容,如敏感属性字段为指向用户隐私信息的字段,如指向用户身份信息的字段,对于敏感属性字段本实施例不进行限定。
簇中敏感属性字段具有的不同的敏感属性值是针对簇中任一敏感属性字段来说,在一个簇中同一个敏感属性字段可以对应多个不同的敏感属性值,使得在一个簇中同一个敏感属性字段的取值不唯一,这样即便攻击任一簇因为簇中同一个敏感属性字段的取值不唯一,以提高获取唯一的敏感属性值的难度,从而提高数据安全性,降低隐私泄露的几率。同一个簇中的数据可以被泛化成具有相同的准标识符的值,在通过准标识符进行攻击时确定出多个敏感属性值,也可以提高获取唯一的敏感属性值的难度。
本实施例在聚类过程中获取待处理数据集中剩余的数据与质心之间的距离,根据距离选取加入到簇中的数据,然后再进行敏感属性值的判断,如按距离由小到大选取K-1条合并到簇中,使得簇满足K-匿名要求,然后判断不同的敏感属性值的个数,以在满足K匿名要求的情况下满足L多样性的安全性要求。因为根据距离选取加入到簇中的数据,降低聚类过程产生的孤立点的数量,减小了处理孤立点造成的额外性能损失。
并且在聚类过程中先考虑L多样性的安全性要求会将不相关的数据强行加入到一个簇中,使得簇中数据泛化程度提高,提高信息损失,而本实施例以距离为优先条件进行聚类,避免为达到L多样化的安全性要求将不相关的数据强行加入到一个簇中,使得簇中数据泛化程度降低,信息损失大大减小,结合以距离和选择质心的方式使得同一个簇中各条数据更紧凑,密度更高,以在安全性不变的前提下,提升了数据精度,数据可用性更高,且因为数据精度提升使得同一个簇中数据尽可能的暴露可供数据挖掘的价值。
相对应的预设个数可以是用于指示完成对待处理数据集的一次聚类以得到一个簇的条件,如果簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于预设个数,指示完成对待处理数据集的一次聚类,得到待处理数据集对应的簇。而一个簇能够满足L多样性的安全性要求,L用于限定一个簇中不同的敏感属性值的个数,因此本实施例中的预设个数可以是但不限于是L多样性的安全性要求对应的L,对于L的取值本实施例不进行限定。
添加单元40,用于如果簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据待处理数据集中没有加入簇中的数据与质心之间的距离,从没有加入簇中的数据中选取数据加入到簇中,直至簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于预设个数。
如果簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,说明需要继续向簇中加入数据,使得簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于预设个数。在向簇中加入数据过程中可根据待处理数据集中没有加入簇中的数据与质心之间的距离,从没有加入簇中的数据中选取数据加入到簇中,如根据待处理数据集中没有加入簇的数据与质心之间的距离,按照距离由小到大方式从没有加入簇的数据中选取数据加入到簇中。
上述数据处理装置,确定待处理数据集中作为簇的质心的一条数据;根据待处理数据集中剩余的数据与质心之间的距离,从剩余的数据中选取第一预设数量的数据加入簇中;确定簇中敏感属性字段具有的敏感属性值的个数;如果簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据待处理数据集中没有加入簇中的数据与质心之间的距离,从没有加入簇中的数据中选取数据加入到簇中,直至簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于预设个数,使得簇中同一个敏感属性字段的不同的敏感属性值的个数至少为预设个数,这样在攻击过程中因为簇中同一个敏感属性字段至少有预设个数的敏感属性值,说明同一个敏感属性字段的取值不唯一,因此根据该敏感属性字段的多个敏感属性值不能轻易得到敏感属性值,提高数据安全性,降低隐私泄露的几率。
假如上述第一预设数量的取值为K匿名算法对应的K与数值1之间的差值,预设个数的取值为L多样性的安全性要求对应的L,则待处理数据集对应的任一簇满足K匿名需求和L多样性的安全性要求。
请参见图7,其示出了本公开实施例提供的另一种数据处理装置的可选结构,还可以包括:第一聚类控制单元50、第三确定单元60、第二聚类控制单元70和第三聚类控制单元80。
第一聚类控制单元50,用于如果簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于预设个数,完成对待处理数据集的一次聚类以得到簇。
第三确定单元60,用于在第一聚类控制单元指示完成对待处理数据集的一次聚类后,确定待处理数据集中没有加入已有簇的数据的数量。
如果簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于预设个数,指示完成对待处理数据集的一次聚类,得到待处理数据集对应的簇。在得到待处理数据集对应的任一簇之后,第三确定单元60需要确定待处理数据集中没有加入已有簇的数据的数量,以判断待处理数据集中当前剩余的数据是否能够再次进行聚类。
在本实施例中,判断待处理数据集中当前剩余的数据是否能够再次进行聚类的一种方式是:预先设置第二预设数量,第二预设数量用于指示待处理数据集能够再次进行聚类时所剩余的数据的数量,且第二预设数量大于第一预设数量,如第二预设数量与第一预设数量的关系可以是但不限于是:第二预设数量=第一预设数量+1。
第二聚类控制单元70,用于如果待处理数据集中没有加入已有簇的数据的数量大于或等于第二预设数量,触发第一确定单元以继续进行待处理数据集对应的下一个簇的聚类。
如果待处理数据集中没有加入已有簇的数据的数量大于或等于第二预设数量,确定待处理数据集中作为簇的质心的一条数据的过程需要视当前簇为待处理数据集对应的第几个簇,在当前簇为第一个簇、第二个簇以及第二个簇之后的其他簇中的任一簇过程中,其确定质心的过程可满足降低信息损失的要求,过程请参见上述实施例中的说明,本实施例不再阐述。
第三聚类控制单元80,用于如果待处理数据集中没有加入已有簇的数据的数量小于第二预设数量,根据没有加入已有簇的数据与已有簇之间的距离,将没有加入已有簇的数据加入到已有簇中。
如根据待处理数据集中没有加入已有簇的数据与已有簇的质心之间的距离,按照距离由小到大方式从没有加入已有簇的数据中选取数据加入到已有簇中,从而将待处理数据集中没有加入已有簇的数据加入到与其相似的数据所在簇中,完成对待处理数据集的聚类。
上述数据处理装置,如果簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于预设个数,确定待处理数据集中没有加入已有簇的数据的数量,以判断待处理数据集中当前剩余的数据是否能够再次进行聚类,如果待处理数据集中没有加入已有簇的数据的数量大于或等于第二预设数量,返回执行确定待处理数据集中作为簇的质心的一条数据,以继续进行待处理数据集对应的下一个簇的聚类,使得聚类得到的下一个簇能够至少满足K匿名要求,如果待处理数据集中没有加入已有簇的数据的数量小于第二预设数量,根据没有加入已有簇的数据与已有簇的质心之间的距离,将没有加入已有簇的数据加入到已有簇中,以将待处理数据集中没有加入已有簇的数据加入到与其相似的数据所在簇中,降低簇中信息损失。
上述实施例中的数据处理装置还可以包括:数据集获取单元,用于根据原始数据集中每条数据的缺失值,对原始数据集中的数据进行缺失值处理,得到修正数据集;确定修正数据集中的分类型数据以及修正数据集中的数值型数据,对分类型数据和数值型数据进行泛化处理;将泛化处理后的数据和修正数据集中的其他类型数据作为待处理数据集中的数据,具体说明请参见上述方法实施例。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一确定单元还可以被描述为“第一聚类控制单元指示完成对待处理数据集的一次聚类后,确定待处理数据集中没有加入已有簇的数据的数量的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
下面参考图8,其示出了适于用来实现本公开实施例的电子设备300的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)等等的移动终端以及诸如台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备300可以包括处理器(例如中央处理器、图形处理器等)301,其可以执行存储在存储器302中的可执行指令以实现上述数据处理方法。存储器302可以是但不限于是只读存储器(ROM)和随机访问存储器(RAM)中的至少一种。处理器301和存储器302之间可以通过总线303相连,以通过总线303通信。此外电子设备300还可以包括输入/输出(I/O)接口304,输入/输出(I/O)接口304也连接至总线303。
通常,以下装置可以连接至I/O接口304:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置305;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置306;包括例如磁带、硬盘等的存储装置307以及通信装置308。通信装置308可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
本公开实施例还提供一种计算机存储介质,当计算机存储介质中的程序由电子设备的处理器执行时,使得电子设备能够执行上述数据处理方法,如上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:确定待处理数据集中作为簇的质心的一条数据;根据待处理数据集中剩余的数据与质心之间的距离,从剩余的数据中选取第一预设数量的数据加入簇中;确定簇中敏感属性字段具有的不同的敏感属性值的个数,敏感属性字段为簇中具有隐私信息的内容;如果簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据待处理数据集中没有加入簇中的数据与质心之间的距离,从没有加入簇中的数据中选取数据加入到簇中,直至簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于预设个数。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储器被安装。在该计算机程序被处理器执行时,执行本公开实施例的方法中限定的上述功能。
根据本公开的一个或多个实施例,提供了一种数据处理方法,包括:
确定待处理数据集中作为簇的质心的一条数据;
根据所述待处理数据集中剩余的数据与所述质心之间的距离,从所述剩余的数据中选取第一预设数量的数据加入所述簇中;
确定所述簇中敏感属性字段具有的不同的敏感属性值的个数,所述敏感属性字段为所述簇中具有隐私信息的内容;
如果所述簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据所述待处理数据集中没有加入所述簇中的数据与所述质心之间的距离,从没有加入所述簇中的数据中选取数据加入到所述簇中,直至所述簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于所述预设个数。
根据本公开的一个或多个实施例,所述确定待处理数据集中作为簇的质心的一条数据包括:
如果所述簇为所述待处理数据集对应的第一个簇,从所述待处理数据集中随机选取一条数据作为所述第一个簇的质心;
如果所述簇为所述待处理数据集对应的第二个簇,根据所述待处理数据集中没有加入所述第一个簇的数据与所述第一个簇的质心之间的距离,从所述待处理数据集中没有加入所述第一个簇的数据中选取一条数据作为所述第二个簇的质心;
如果所述簇为所述待处理数据集对应的所述第一个簇和所述第二个簇之外的簇,根据所述待处理数据集中没有加入已有簇的数据与所述已有簇的质心之间的距离和,从所述待处理数据集中没有加入已有簇的数据中选取一条数据作为所述簇的质心。
根据本公开的一个或多个实施例,所述根据所述待处理数据集中没有加入已有簇的数据与所述已有簇的质心之间的距离和,从所述待处理数据集中没有加入已有簇的数据中选取一条数据作为所述簇的质心包括:
根据所述待处理数据集中没有加入已有簇的数据与所述已有簇的质心之间的距离和,从没有加入已有簇的数据中确定距离和最大的数据;
将所述距离和最大的数据作为所述簇的质心。
根据本公开的一个或多个实施例,提供了一种数据处理方法,还包括:
如果所述簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于所述预设个数,完成对所述待处理数据集的一次聚类以得到所述簇,并确定所述待处理数据集中没有加入已有簇的数据的数量;
如果所述待处理数据集中没有加入已有簇的数据的数量大于或等于第二预设数量,返回执行确定待处理数据集中作为簇的质心的一条数据,以继续进行所述待处理数据集对应的下一个簇的聚类;
如果所述待处理数据集中没有加入已有簇的数据的数量小于所述第二预设数量,根据没有加入已有簇的数据与所述已有簇之间的距离,将没有加入已有簇的数据加入到已有簇中。
根据本公开的一个或多个实施例,提供了一种数据处理方法,还包括:
根据原始数据集中每条数据的缺失值,对所述原始数据集中的数据进行缺失值处理,得到修正数据集;
确定所述修正数据集中的分类型数据以及所述修正数据集中的数值型数据,对所述分类型数据和所述数值型数据进行泛化处理;
将泛化处理后的数据和所述修正数据集中的其他类型数据作为所述待处理数据集中的数据。
根据本公开的一个或多个实施例,提供了一种数据处理装置,包括:
第一确定单元,用于确定待处理数据集中作为簇的质心的一条数据;
聚类单元,用于根据所述待处理数据集中剩余的数据与所述质心之间的距离,从所述剩余的数据中选取第一预设数量的数据加入所述簇中;
第二确定单元,用于确定所述簇中敏感属性字段具有的不同的敏感属性值的个数,所述敏感属性字段为所述簇中具有隐私信息的内容;
添加单元,用于如果所述簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据所述待处理数据集中没有加入所述簇中的数据与所述质心之间的距离,从没有加入所述簇中的数据中选取数据加入到所述簇中,直至所述簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于所述预设个数。
根据本公开的一个或多个实施例,所述第一确定单元通过如下方式确定待处理数据集中作为簇的质心的一条数据:
如果所述簇为所述待处理数据集对应的第一个簇,从所述待处理数据集中随机选取一条数据作为所述第一个簇的质心;
如果所述簇为所述待处理数据集对应的第二个簇,根据所述待处理数据集中没有加入所述第一个簇的数据与所述第一个簇的质心之间的距离,从所述待处理数据集中没有加入所述第一个簇的数据中选取一条数据作为所述第二个簇的质心;
如果所述簇为所述待处理数据集对应的所述第一个簇和所述第二个簇之外的簇,根据所述待处理数据集中没有加入已有簇的数据与所述已有簇的质心之间的距离和,从所述待处理数据集中没有加入已有簇的数据中选取一条数据作为所述簇的质心。
根据本公开的一个或多个实施例,所述第一确定单元,用于根据所述待处理数据集中没有加入已有簇的数据与所述已有簇的质心之间的距离和,从没有加入已有簇的数据中确定距离和最大的数据;将所述距离和最大的数据作为所述簇的质心。
根据本公开的一个或多个实施例,提供了一种数据处理装置,还包括:
第一聚类控制单元,用于如果所述簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于所述预设个数,完成对所述待处理数据集的一次聚类以得到所述簇;
第三确定单元,用于在所述第一聚类控制单元指示完成对所述待处理数据集的一次聚类后,确定所述待处理数据集中没有加入已有簇的数据的数量;
第二聚类控制单元,用于如果所述待处理数据集中没有加入已有簇的数据的数量大于或等于第二预设数量,触发所述第一确定单元以继续进行所述待处理数据集对应的下一个簇的聚类;
第三聚类控制单元,用于如果所述待处理数据集中没有加入已有簇的数据的数量小于所述第二预设数量,根据没有加入已有簇的数据与所述已有簇之间的距离,将没有加入已有簇的数据加入到已有簇中。
根据本公开的一个或多个实施例,提供了一种数据处理装置,还包括:数据集获取单元,用于根据原始数据集中每条数据的缺失值,对原始数据集中的数据进行缺失值处理,得到修正数据集;确定修正数据集中的分类型数据以及修正数据集中的数值型数据,对分类型数据和数值型数据进行泛化处理;将泛化处理后的数据和修正数据集中的其他类型数据作为待处理数据集中的数据
根据本公开的一个或多个实施例,提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述数据处理方法。
根据本公开的一个或多个实施例,提供了一种计算机存储介质,当所述计算机存储介质中的程序由电子设备的处理器执行时,使得电子设备能够执行上述数据处理方法。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (8)
1.一种数据处理方法,其特征在于,所述方法包括:
确定待处理数据集中作为簇的质心的一条数据;
根据所述待处理数据集中剩余的数据与所述质心之间的距离,从所述剩余的数据中选取第一预设数量的数据加入所述簇中;
确定所述簇中敏感属性字段具有的不同的敏感属性值的个数,所述敏感属性字段为所述簇中具有隐私信息的内容;
如果所述簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据所述待处理数据集中没有加入所述簇中的数据与所述质心之间的距离,从没有加入所述簇中的数据中选取数据加入到所述簇中,直至所述簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于所述预设个数;
所述确定待处理数据集中作为簇的质心的一条数据包括:
如果所述簇为所述待处理数据集对应的第一个簇,从所述待处理数据集中随机选取一条数据作为所述第一个簇的质心;
如果所述簇为所述待处理数据集对应的第二个簇,根据所述待处理数据集中没有加入所述第一个簇的数据与所述第一个簇的质心之间的距离,从所述待处理数据集中没有加入所述第一个簇的数据中选取一条数据作为所述第二个簇的质心;
如果所述簇为所述待处理数据集对应的所述第一个簇和所述第二个簇之外的簇,根据所述待处理数据集中没有加入已有簇的数据与所述已有簇的质心之间的距离和,从所述待处理数据集中没有加入已有簇的数据中选取一条数据作为所述簇的质心。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理数据集中没有加入已有簇的数据与所述已有簇的质心之间的距离和,从所述待处理数据集中没有加入已有簇的数据中选取一条数据作为所述簇的质心包括:
根据所述待处理数据集中没有加入已有簇的数据与所述已有簇的质心之间的距离和,从没有加入已有簇的数据中确定距离和最大的数据;
将所述距离和最大的数据作为所述簇的质心。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于所述预设个数,完成对所述待处理数据集的一次聚类以得到所述簇,并确定所述待处理数据集中没有加入已有簇的数据的数量;
如果所述待处理数据集中没有加入已有簇的数据的数量大于或等于第二预设数量,返回执行确定待处理数据集中作为簇的质心的一条数据,以继续进行所述待处理数据集对应的下一个簇的聚类;
如果所述待处理数据集中没有加入已有簇的数据的数量小于所述第二预设数量,根据没有加入已有簇的数据与所述已有簇之间的距离,将没有加入已有簇的数据加入到已有簇中。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方法还包括:
根据原始数据集中每条数据的缺失值,对所述原始数据集中的数据进行缺失值处理,得到修正数据集;
确定所述修正数据集中的分类型数据以及所述修正数据集中的数值型数据,对所述分类型数据和所述数值型数据进行泛化处理;
将泛化处理后的数据和所述修正数据集中的其他类型数据作为所述待处理数据集中的数据。
5.一种数据处理装置,其特征在于,所述装置包括:
第一确定单元,用于确定待处理数据集中作为簇的质心的一条数据;
聚类单元,用于根据所述待处理数据集中剩余的数据与所述质心之间的距离,从所述剩余的数据中选取第一预设数量的数据加入所述簇中;
第二确定单元,用于确定所述簇中敏感属性字段具有的不同的敏感属性值的个数,所述敏感属性字段为所述簇中具有隐私信息的内容;
添加单元,用于如果所述簇中敏感属性字段具有的不同的敏感属性值的个数小于预设个数,根据所述待处理数据集中没有加入所述簇中的数据与所述质心之间的距离,从没有加入所述簇中的数据中选取数据加入到所述簇中,直至所述簇中敏感属性字段具有的不同的敏感属性值的个数等于或大于所述预设个数;
所述第一确定单元通过如下方式确定待处理数据集中作为簇的质心的一条数据:
如果所述簇为所述待处理数据集对应的第一个簇,从所述待处理数据集中随机选取一条数据作为所述第一个簇的质心;
如果所述簇为所述待处理数据集对应的第二个簇,根据所述待处理数据集中没有加入所述第一个簇的数据与所述第一个簇的质心之间的距离,从所述待处理数据集中没有加入所述第一个簇的数据中选取一条数据作为所述第二个簇的质心;
如果所述簇为所述待处理数据集对应的所述第一个簇和所述第二个簇之外的簇,根据所述待处理数据集中没有加入已有簇的数据与所述已有簇的质心之间的距离和,从所述待处理数据集中没有加入已有簇的数据中选取一条数据作为所述簇的质心。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第一聚类控制单元,用于如果所述簇中敏感属性字段具有的不同的敏感属性值的个数大于或等于所述预设个数,完成对所述待处理数据集的一次聚类以得到所述簇;
第三确定单元,用于在所述第一聚类控制单元指示完成对所述待处理数据集的一次聚类后,确定所述待处理数据集中没有加入已有簇的数据的数量;
第二聚类控制单元,用于如果所述待处理数据集中没有加入已有簇的数据的数量大于或等于第二预设数量,触发所述第一确定单元以继续进行所述待处理数据集对应的下一个簇的聚类;
第三聚类控制单元,用于如果所述待处理数据集中没有加入已有簇的数据的数量小于所述第二预设数量,根据没有加入已有簇的数据与所述已有簇之间的距离,将没有加入已有簇的数据加入到已有簇中。
7.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的数据处理方法。
8.一种计算机存储介质,其特征在于,当所述计算机存储介质中的程序由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至4中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011383257.1A CN112329070B (zh) | 2020-11-30 | 2020-11-30 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011383257.1A CN112329070B (zh) | 2020-11-30 | 2020-11-30 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329070A CN112329070A (zh) | 2021-02-05 |
CN112329070B true CN112329070B (zh) | 2024-02-27 |
Family
ID=74307865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011383257.1A Active CN112329070B (zh) | 2020-11-30 | 2020-11-30 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329070B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902627A (zh) * | 2012-12-29 | 2014-07-02 | 中国移动通信集团福建有限公司 | 一种数据发布方法及装置 |
CN106910017A (zh) * | 2017-02-21 | 2017-06-30 | 深圳供电局有限公司 | 一种基于用户行为数据挖掘的电能体验分析方法和系统 |
CN110069943A (zh) * | 2019-03-29 | 2019-07-30 | 中国电力科学研究院有限公司 | 一种基于聚类匿名化与差分隐私保护的数据处理方法及系统 |
CN111310834A (zh) * | 2020-02-19 | 2020-06-19 | 深圳市商汤科技有限公司 | 数据处理方法及装置、处理器、电子设备、存储介质 |
CN111859441A (zh) * | 2019-04-30 | 2020-10-30 | 郑州大学 | 一种缺失数据的匿名方法、存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2761511B1 (en) * | 2011-09-28 | 2017-01-18 | Tata Consultancy Services Ltd. | System and method for database privacy protection |
-
2020
- 2020-11-30 CN CN202011383257.1A patent/CN112329070B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902627A (zh) * | 2012-12-29 | 2014-07-02 | 中国移动通信集团福建有限公司 | 一种数据发布方法及装置 |
CN106910017A (zh) * | 2017-02-21 | 2017-06-30 | 深圳供电局有限公司 | 一种基于用户行为数据挖掘的电能体验分析方法和系统 |
CN110069943A (zh) * | 2019-03-29 | 2019-07-30 | 中国电力科学研究院有限公司 | 一种基于聚类匿名化与差分隐私保护的数据处理方法及系统 |
CN111859441A (zh) * | 2019-04-30 | 2020-10-30 | 郑州大学 | 一种缺失数据的匿名方法、存储介质 |
CN111310834A (zh) * | 2020-02-19 | 2020-06-19 | 深圳市商汤科技有限公司 | 数据处理方法及装置、处理器、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112329070A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520181B (zh) | 数据模型训练方法和装置 | |
US8955153B2 (en) | Privacy control in a social network | |
CN112650790B (zh) | 目标点云平面确定方法,装置,电子设备及存储介质 | |
CN110222775A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN111314063A (zh) | 一种基于物联网大数据信息管理方法、系统及装置 | |
CN112329070B (zh) | 一种数据处理方法及装置 | |
CN117313159A (zh) | 一种数据处理方法、装置、设备以及存储介质 | |
CN117453415A (zh) | 数据审核方法、装置、设备及存储介质 | |
CN112035334A (zh) | 异常设备检测方法、装置、存储介质与电子设备 | |
CN110941683B (zh) | 获取空间中对象属性信息的方法、装置、介质和电子设备 | |
WO2022012820A1 (en) | Computer-implemented automatic security methods and systems | |
CN111382233A (zh) | 一种相似文本检测方法、装置、电子设备及存储介质 | |
CN114116746B (zh) | 多系统数据存储方法、装置、介质及电子设备 | |
CN110324236B (zh) | 事件记录的分享方法、装置和计算机设备 | |
US20230274000A1 (en) | Computer-implemented automatic security methods and systems | |
US20230289442A1 (en) | Computer-implemented automatic security methods and systems | |
US20210336958A1 (en) | System for automated electronic data exfiltration path identification, prioritization, and remediation | |
CN118210631A (zh) | 用于边缘计算的集群负载均衡方法、服务器和电子设备 | |
CN117294470A (zh) | 网络攻击检测方法、装置、电子设备及存储介质 | |
CN118761054A (zh) | 系统操作告警方法、装置、电子设备和计算机可读介质 | |
CN117111797A (zh) | 资源管理方法、装置、设备及存储介质 | |
CN112100616A (zh) | 一种监控方法和装置 | |
CN117424689A (zh) | 安全防护方法、装置、计算机设备和存储介质 | |
CN117472548A (zh) | 资源调度方法、装置、设备及存储介质 | |
CN117472725A (zh) | 控件的跨端匹配方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |