CN113468560A

CN113468560A - 数据保护方法、装置及服务器

Info

Publication number: CN113468560A
Application number: CN202110679069.1A
Authority: CN
Inventors: 宋晓峰
Original assignee: Baowan Capital Management Co ltd
Current assignee: Baowan Capital Management Co ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-10-01

Abstract

本申请实施例涉及一种数据保护方法、装置及服务器，该数据保护方法，包括：获取待分类数据；确定待分类数据中的每一资料列的风险值；根据风险值，对待分类数据进行风险分类，确定分类结果；根据分类结果，对待分类数据进行选择性资料保护。一方面，通过风险值对待分类数据进行风险分类，确定分类结果，本申请能够确定不同数据的分类结果，另一方面，通过分类结果，对所述待分类数据进行选择性资料保护，本申请能够提高数据加密的效率以及信息检索效率。

Description

数据保护方法、装置及服务器

技术领域

本申请实施例涉及数据安全技术领域，特别涉及一种数据保护方法、装置及服务器。

背景技术

随着大数据和云计算技术日益发展，数据资源被赋予了极为重要的经济属性和战略属性，已经成为关系到一个组织或个人利益和安全的重要资源。数据资源价值被广泛认同的同时，数据资源安全也面临着种种安全威胁和挑战。近年来随着云计算发展，以往仅在行动装置上的大量加解密运算，如今变成可利用云端服务器来辅助进行加解密运算，用户端(加密或解密者)可将复杂运算交由云端服务器的强大运算能力来计算。当用户端取得服务器传回的计算结果，结合此结果，即可合成密文或解得明文，但以信息安全的角度来看，利用此种方式的加解密计算，必须确保发送者、接收者、云端服务器之间参数传递时具有完整性，否则将产生错误的密文或明文。

为了保护云端环境的资料安全，资料加密与存取控制是常用的作法。存取控制可以限制使用者存取符合其权限的资料内容，而资料加密则可以使机密资料内容免遭到未授权者的读取。若只使用存取控制技术来保护档案资料的安全，仍有可能因云端环境特有的风险而导致机密资料内容外泄，因此，可通过资料加密的技术，以确保资料在不慎外泄的情况下，仍能保障资料内容的安全。

目前云端环境常用的资料加密做法，是将资料进行全加密后储存于云端资料中心，待使用者需要时，才执行解密的动作。若经常反覆地执行大量资料加密与解密将严重耗损系统资源(如CPU、存储器等)，造成系统负担沉重而降低系统效能；其次，在使用者存取资料过程中，可能因反覆进行加解密，使得云端供应商或恶意使用者有机会窃取使用者的资料；此外，加密后的资料将呈现出一堆无意义的乱码，使得资料不易检索及查询，对于云端供应商而言，除了会大幅提高资源消耗与密钥管理的复杂度以外，加密的资料也不利于后续的商业分析需求。

申请人在实现本申请过程中，发现相关技术中至少存在如下问题：

云端数据全加密的方式导致系统资源消耗大，数据加密的效率低，并且，信息检索效率低。

发明内容

本申请实施例的目的在于提供一种数据保护方法、装置及服务器，以提高数据加密的效率以及信息检索效率。

第一方面，本申请实施例提供一种数据保护方法，所述方法包括：

获取待分类数据；

确定所述待分类数据中的每一资料列的风险值；

根据所述风险值，对所述待分类数据进行风险分类，确定分类结果；

根据所述分类结果，对所述待分类数据进行选择性资料保护。

在一些实施例中，所述确定所述待分类数据中的每一资料列的风险值，包括：

获取每一资料列中的每一资料项变量的属性类型；

根据所述属性类型，基于预设的价值转换函数，确定每一所述资料项变量的机密值；

根据每一所述资料项变量的机密值，确定每一所述资料列的风险值。

在一些实施例中，所述预设的价值转换函数，用于：

确定预设的区间范围；

在所述预设的区间范围内，确定每一属性类型对应的机密值。

在一些实施例中，所述属性类型包括数值型属性和类别型属性，所述根据所述属性类型，基于预设的价值转换函数，确定每一所述资料项变量的机密值，包括：

若所述属性类型为数值型属性，则将数值型属性转换为类别型属性，并基于预设的价值转换函数，确定每一所述资料项变量的机密值；

若所述属性类型为类别型属性，则直接基于预设的价值转换函数，确定每一所述资料项变量的机密值。

在一些实施例中，所述根据每一所述资料项变量的机密值，确定每一所述资料列的风险值，包括：

确定每一所述资料项变量对应的安全属性；

基于预先确定的每一安全属性对应的权重，结合每一所述资料项变量的机密值，计算每一所述资料项变量所在的资料列对应的风险值。

在一些实施例中，所述安全属性包括识别属性、准识别属性、敏感属性以及公开属性，全部的安全属性对应的权重之和为一。

在一些实施例中，所述根据所述风险值，对所述待分类数据进行风险分类，确定分类结果，包括：

计算所述待分类数据中的每一资料的风险值；

若某一资料的风险值大于预设的风险阈值，则确定分类结果为高风险资料；

若某一资料的风险值小于或等于预设的风险阈值，则确定分类结果为低风险资料。

在一些实施例中，所述分类结果包括高风险资料或低风险资料，所述根据所述分类结果，对所述待分类数据进行选择性资料保护，包括：

若某一资料的分类结果为高风险资料，则通过私有云进行存储；

若某一资料的分类结果为低风险资料，则通过公有云进行存储。

第二方面，本申请实施例提供一种数据保护装置，所述装置包括：

数据获取单元，用于获取待分类数据；

风险值确定单元，用于确定所述待分类数据中的每一资料列的风险值；

分类结果单元，用于根据所述风险值，对所述待分类数据进行风险分类，确定分类结果；

选择性资料保护单元，用于根据所述分类结果，对所述待分类数据进行选择性资料保护。

第三方面，本申请实施例提供一种服务器，所述服务器包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的数据保护方法。

第四方面，一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被服务器执行时，使所述服务器执行如第一方面所述的数据保护方法。

本申请实施例的有益效果在于：通过提供一种数据保护方法，所述方法包括：获取待分类数据；确定所述待分类数据中的每一资料列的风险值；根据所述风险值，对所述待分类数据进行风险分类，确定分类结果；根据所述分类结果，对所述待分类数据进行选择性资料保护。一方面，通过风险值对待分类数据进行风险分类，确定分类结果，本申请能够确定不同数据的分类结果，另一方面，通过分类结果，对所述待分类数据进行选择性资料保护，本申请能够提高数据加密的效率以及信息检索效率。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请实施例提供的一种数据保护方法的整体示意图；

图2是本申请实施例提供的一种资料分类的示意图；

图3是本申请实施例提供的一种数据保护方法的流程示意图；

图4是图3中的步骤S302的细化流程图；

图5是图3中的步骤S303的细化流程图；

图6是本申请实施例提供的一种选择性资料保护的流程示意图；

图7是本申请实施例提供的另一种数据保护方法的流程示意图；

图8是本申请实施例提供的一种数据个体在数据集的对应位置的示意图；

图9是本申请实施例提供的一种逐次分类阶段的流程示意图；

图10是本申请实施例提供的一种数据保护装置的结构示意图；

图11是本申请实施例提供的一种数据保护装置的结构示意图；

图12是本申请实施例提供的一种服务器的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中，假设企业内部储存空间有限，无法存放所有的资料，因此采用公有云结合私有云的配置架构以存放企业的资料。

为了保护云端资料的安全，本申请实施例将高价值及高机密的资料存放于私有云，较低价值或公开的资料则存放于公有云。亦即，将资料概分为高风险与低风险两类，高风险资料配置于私有云，使其拥有较高的安全性；而低风险资料配置于公有云，提供查询及资料分析用途。为了避免未授权使用者使用资料探勘技术进行资料分析造成个人隐私外泄，并维持资料一定程度可用性，本方案结合匿名化处理与部分加密的方式，来对公有云资料进行保护。

请参阅图1，图1是本申请实施例提供的一种数据保护方法的整体示意图；

如图1所示，本申请将数据保护划分为两个阶段，分别为阶段一和阶段二，其中，阶段一为资料分类阶段，阶段二维选择性资料保护阶段，在资料分类的阶段，本方案依据资料的风险值，将资料概分为高风险性与低风险性二类，再根据风险程度给予不同的保护措施；在选择性资料保护阶段，则将欲存放公有云中资料的重要属性分别进行对称式加密与匿名化处理。经保护后的资料则依资料风险高低分别存放于混合云的环境中，其中，高风险性资料存放于私有云，而低风险性资料则存放于公有云。私有云中的高风险性资料仅限内部使用者存取，而公有云中的资料则依使用者权限而有不同存取方式，未授权使用者只能存取公开或经匿名化处理后的资料，而加密的内容只提供授权使用者存取。

资料保护技术(如加密、存取控制等)常常被用来保护重要资料，如果对所有资料不分程度进行加密，容易因加解密过程中所需的大量运算而导致额外的系统资源耗损。因此，若能事先区分资料等级，依据资料机密程度分别给予适当的管控，可进一步提高资料的安全性，本申请基于此概念，依据资料风险值对资料进行风险分类。

请再参阅图2，图2是本申请实施例提供的一种资料分类的示意图；

如图2所示，对资料库进行资料前置处理，在前置处理步骤，赋予资料库内的每个资料属性值一个机密值，该机密值在风险分类步骤用于结合属性权重及门槛值以进行资料风险分类，分别得高风险与低风险资料。

请再参阅图3，图3是本申请实施例提供的一种数据保护方法的流程示意图；

如图3所示，该数据保护方法，包括：

步骤S301：获取待分类数据；

具体的，所述待分类数据为资料库或数据库，例如：企业资料库或企业数据库。

步骤S302：确定所述待分类数据中的每一资料列的风险值；

具体的，请再参阅图4，图4是图3中的步骤S302的细化流程图；

如图4所示，该步骤S302：确定所述待分类数据中的每一资料列的风险值，包括：

步骤S3021：获取每一资料列中的每一资料项变量的属性类型；

具体的，所述资料项变量的属性类型包括类别型属性和数值型属性。

步骤S3022：根据所述属性类型，基于预设的价值转换函数，确定每一所述资料项变量的机密值；

具体的，所述预设的价值转换函数，用于：确定预设的区间范围；在所述预设的区间范围内，确定每一属性类型对应的机密值。

例如：所述预设的价值转换函数，用于赋予每一资料项变量的机密值，例如：所述预设的价值转换函数为下方的公式(1)：

Vij＝f_i(x_ij)公式(1)

其中，x_ij为第i个属性中的第j个资料列的资料项变量，f_i为第i个属性的价值转换函数，Vij为机密值。

具体的，针对类别型属性，如下表1所示：

资料编号	属性{职业}	属性机密值
			1	农林渔牧业	60
2	军警	80
			3	商业管理	85
4	教育服务	75

表1

可以看出，表1中包含多种不同职业，本申请事先由资料拥有者依据不同职业类别的价值，分别给予1至100之间的量化数值，作为其属性机密值，数值越大代表价值越高。

可以理解的是，属性即为数据库二维关系表中某一字段，例如：职业、身高、年龄等，每个属性都具有多个属性值，而资料列变量即为样本记录中属于某一属性下的值。

具体的，针对数值型属性，如下表2所示：

资料编号	数值属性{年纪}	类别属性{年纪}
			1	16	青少年
2	45	青壮年
			3	67	老年
4	27	青壮年

表2

可以看出，表2中为年纪的数值属性，由于其数值分布连续，不利于量化数值计算，本申请先将数值分为4个不同类别，再将类别属性依其价值分别给予1至100之间的量化机密值。对于不易直接区分类别的数值，则可利用聚类分析技术来计算数值的间的距离显示其相似程度，通过相似程度将数值加以分类。在本申请实施例中，量化机密值可以通过logistic回归、决策树、普通线性回归、分层分析、聚类分析、时间序列等方式来确定。

在本申请实施例中，聚类分析是指代将数值类型的属性值，如年龄17-65岁的样本做归类，分成4类层级，通过一个中心点的选取，经过迭代，将数值比较靠近的值，聚拢在一起，形成分层。例如：上表2中的青少年选择多少区间的合适，四个层级的中心点所画出的区间范围，能否最大限度的涵盖样本数据。可以理解的是，年龄的划分，更多应该是我们日常经验，而电话号码，则可以考虑从区域地点等方面划分更合理。如果碰到特殊数值，如家庭成员数，划分登记，我们如何把数值投影到四个层级去，如投影到：微型，

小户型，中等型，大户型。此时，考虑样本基数主要集中在哪里，

分为四个层，如何选择合适的四个点，让样本数据尽量最大可能地覆盖。

在本申请实施例中，所述属性类型包括数值型属性和类别型属性，所述根据所述属性类型，基于预设的价值转换函数，确定每一所述资料项变量的机密值，包括：

具体的，根据不同的属性类型，确定不同的价值转换函数，例如：对于类别型属性，本申请采用分级归类法，其是将属性分为数个等级或类别，并事先为每个等级或类别定义相对应的机密值；对于数值型属性，则先将属性转换为类别属性，再使用分级归类法加以计算其机密值。其中，分级归类法用于对数据样本做归类，定义每一类别对应的机密值由多重决策排序或者经验值确定。

步骤S3023：根据每一所述资料项变量的机密值，确定每一所述资料列的风险值。

具体的，所述根据每一所述资料项变量的机密值，确定每一所述资料列的风险值，包括：

确定每一所述资料项变量对应的安全属性；

具体的，所述待分类数据包括关联式资料表，根据资料属性的间的重要程度定义属性权重，分别针对所述关联式资料表的安全属性给予不同的权重，其中，所述安全属性包括：识别属性、准识别属性、敏感属性以及非识别属性。

在本申请实施例中，由于识别属性可直接识别个人身分，若外泄对个人隐私的危害最严重，因此重要性最高，有最高的权重值，其次为敏感属性，再次为准识别属性，最后则是不包含前述属性的其他属性，即非识别属性。由于资料属性的间不易直接评定权重，因此，本申请利用多属性决策的作法来计算权重。由于在多属性决策相关折衷排序方法，使用的比例最高，因此，本申请采用折衷排序方法以计算权重。具体的，所述折衷排序方法包括：折衷妥协解法(VIKOR)。

其中，折衷妥协解法(VIKOR)中决定权重的关键在于属性排序及属性个数，若有n个属性，其排序为A₁，A₂…A_n，则相对权重依序为w₁，w₂…w_n，且满足1>w₁≥w₂…≥w_n>0，所有权重加总为1，其中w_n代表第n个属性的权重。假设n为属性的总个数，则第k个属性的权重可依下方的公式(2)确定：

由公式(2)可知：

在本申请实施例中，为了加速权重值计算，本申请事先建立不同属性个数的排序权重值表格，直接利用查表的方式求得权重值。本申请中的风险分类是为每笔资料列属性的资料项产生相对应的机密值V_ij，并和其对应属性权重W_k相乘后进行加总，以计算出资料列的风险值R_j，其计算方式如下方的公式(3)所示：

其中，n为每笔资料包含的属性数目。因此若有m笔资料列，则可产生m笔资料列的风险值R₁，R₂，...，R_m。

步骤S303：根据所述风险值，对所述待分类数据进行风险分类，确定分类结果；

具体的，请再参阅图5，图5是图3中的步骤S303的细化流程图；

如图5所示，该步骤S303：根据所述风险值，对所述待分类数据进行风险分类，确定分类结果，包括：

步骤S3031：计算所述待分类数据中的每一资料的风险值；

具体的，计算每一资料的风险值，即m笔资料列的风险值R₁，R₂，...，R_m。

步骤S3032：判断某一资料的风险值是否大于预设的风险阈值；

具体的，在将所有资料列分别计算出风险值之后，根据预设的风险阈值T_A，将资料划分为高风险及低风险资料两大类。

在本申请实施例中，风险阈值与管理者的对风险承受偏好程度以及经验判断相关，例如：在金融公司中，针对客户信息画像的数据记录，客户信息记录风险值高于120(假定一个值)，视为此类客户信息属于较为机密数据，不宜做样板数据发布出去，此时设定风险阈值为120。

若资料列的风险值高于风险阈值T_A，则属于高风险资料，若资料列的风险值小于或等于风险阈值T_A，则属于低风险资料。举例来说，资料表中包含n个属性A与m个资料列t，属性A₁至A_n的权重按照顺序分别为w₁，w₂，…，w_n，资料列t₁中属性A₁的资料项变量经带入价值转换函数(4-1)计算后，其机密值为V₁₁，属性A₂资料项的机密值为V₂₁，属性A_n的资料项变量价值为V_n1，计算资料列t₁、t₂、t_m的风险值分别如下方公式(4)-公式(6)：

R₁＝w₁×V₁₁+w₂×V₂₁…w_n×V_n1公式(4)

R₂＝w₁×V₁₂+w₂×V₂₂…w_n×V_n2公式(5)

R_m＝w₁×V_1m+w₂×V_2m…w_n×V_nm公式(6)

综上，计算得出待分类数据中的每一资料的风险值，得到资料风险表，如下表3所示：

表3

步骤S3033：确定分类结果为高风险资料；

若某一资料的风险值大于或等于预设的风险阈值，则确定分类结果为高风险资料；

步骤S3034：确定分类结果为低风险资料；

若某一资料的风险值小于预设的风险阈值，则确定分类结果为低风险资料。

步骤S304：根据所述分类结果，对所述待分类数据进行选择性保护；

具体的，若某一资料的分类结果为高风险资料，则通过私有云进行存储；若某一资料的分类结果为低风险资料，则通过公有云进行存储。

在本申请实施例中，通过提供一种数据保护方法，该数据保护方法，包括：获取待分类数据；确定所述待分类数据中的每一资料列的风险值；根据所述风险值，对所述待分类数据进行风险分类，确定分类结果；根据所述分类结果，对所述待分类数据进行选择性资料保护。一方面，通过风险值对待分类数据进行风险分类，确定分类结果，本申请能够确定不同数据的分类结果，另一方面，通过分类结果，对所述待分类数据进行选择性资料保护，本申请能够提高数据加密的效率以及信息检索效率。

为了保护公有云中资料的安全，并兼顾资料的可用性，本申请还提出一个以萤火虫蜂群优化概念，并改善k-member在群集初始值选择与搜寻合适数据等方式来达成k匿名的目标，并利用对称式加密技术进行选择性资料保护。本申请通过采用具有加解密速度快优点的对称式加密技术对重要属性进行加密，以节省云端庞大资料的处理时间。另外，利用匿名化技术以保留资料的广义语义信息，可便于用户进行内容查询及进行资料分析。

具体的，请参阅图6，图6是本申请实施例提供的一种选择性资料保护的流程示意图；

如图6所示，选择性资料保护的流程，包括：

首先将公有云资料进行资料属性分区，根据资料的属性划分为四种属性，分别为识别属性、准识别属性、敏感属性以及非识别属性。

在识别属性，考虑其能够直接识别个人身分，若不加以处理容易造成个人身分外泄，但若将其删除则可能会降低资料的可用性，因此本申请采用重编码的方式进行保护，例如：使用如A001、A002重新编码姓名或身分证号码。

在准识别属性及敏感属性方面，则同时采用对称式加密与匿名化技术对其处理，作法是将属性内容复制两份，一份使用匿名化技术加以处理，另一份则采用对称式加密加以处理。例如：通过采用不同匿名化技术及调整数值泛化阶层高度等方法，控制其释出信息的精确度，匿名化处理后的内容提供查询与资料分析使用，而使用对称式加密则保护资料原始值，仅供授权的使用者下载并解密使用，避免在公有云直接进行解密造成隐私外泄。

在非识别属性方面，则对其不予以处理，从而降低资料处理量。

具体的，请再参阅图7，图7是本申请实施例提供的另一种数据保护方法的流程示意图；

如图7所示，该数据保护方法，包括：

步骤S701：根据公有云中的每一资料的资料属性，对所述公有云中的所有资料进行分区，确定每一资料属性对应的区域；

具体的，所述资料属性包括识别属性、准识别属性、敏感属性以及非识别属性；

步骤S702：确定每一资料属性对应的区域的保护方式，并基于每一资料属性对应的区域的保护方式，对所述公有云中的所有资料进行保护。

所述确定每一资料属性对应的区域的保护方式，包括：

若所述资料属性为识别属性，则确定识别属性对应的区域的保护方式为重编码方式；

若所述资料属性为准识别属性或敏感属性，则确定准识别属性或敏感属性对应的区域的保护方式为对称式加密方式结合匿名化方式；

若所述资料属性为非识别属性，则不对非识别属性对应的区域的资料进行处理。

具体的，所述对称式加密方式结合匿名化方式，包括：

将资料属性为准识别属性或敏感属性的资料进行复制，生成第一资料集和第二资料集；

对所述第一资料集进行匿名化处理；

对所述第二资料集进行对称式加密处理。

具体的，所述对所述第一资料集进行匿名化处理，包括：

基于萤火虫蜂群优化算法，对所述第一资料集进行匿名化处理。

其中，所述萤火虫蜂群优化算法，包括：初始化群中心演化阶段以及资料分类阶段；

其中，所述初始化群中心演化阶段，包括：

加载第一资料集并布置每一资料对应的萤火虫，设定要执行的萤火虫参数，所述萤火虫参数包括匿名数、初始半径、初始亮度、亮度衰减系数、比例常数以及循环次数；

进入循环；

更新每一萤火虫的亮度；

搜寻每一萤火虫的初始半径内的邻居的荧光值；

确定每一萤火虫对应的目标萤火虫，并向目标萤火虫移动；

更新半径；

返回循环，直至执行到设定的循环次数，以结束萤火虫演化过程；

输出萤火虫最后一次循环的数据值，所述数据值包括每一萤火虫的标识、数据、最后一次循环的萤火值、半径以及半径内成员集合；

将所述萤火虫最后一次循环的数据值确定为初始化群中心演化阶段的演化结果。

其中，所述资料分类阶段，包括：逐次分类阶段，具体包括：

获取所述初始化群中心演化阶段的演化结果，对所有萤火虫按照荧光亮度由高到低排序；

从荧光亮度最高的萤火虫开始，搜索半径范围内尚未被分配到群集的萤火虫数量，如果萤火虫半径内未被分配至前面群集的萤火虫数量满足k-1笔，则以此萤火虫作为群集起始点，将半径内所有邻居萤火虫做逐笔挑选信息损失量最小k-1笔数据来建立此次k匿名群集；如果被选择的萤火虫半径内的邻居未满足k-1笔资料时，则跳过该萤火虫，选择下一个荧光亮度最高的萤火虫继续搜索，直到所有萤火虫都被搜索过为止；

输出逐次分类阶段的分类结果。

其中，所述资料分类阶段，还包括：剩余数据处理阶段，具体包括：

将逐次分类阶段未分配到的萤火虫组合成剩余数据集；

加载所述剩余数据集，获取剩余数据集中的每一萤火虫的荧光亮度，并设定匿名数；

对逐次分类阶段未分配到的所有萤火虫的荧光亮度由高到低排序；

选择荧光亮度最高的萤火虫作为群集初始点；

根据信息损失量最小的方式，逐一加入数据，直至满足匿名数；

循环选择剩余的其他萤火虫中的荧光亮度最高的萤火虫作为群集初始点，直至不满足匿名数；

将未分配的萤火虫按照剩余数据处理阶段的群集的群集间距离最近方式，加入到已建立好的群集中；

输出剩余数据处理阶段的分类结果。

具体的，萤火虫蜂群优化算法包括如下步骤：

(1)初始化群中心演化阶段

在萤火虫蜂群优化算法中，数据集内的每一笔数据会有各自的代理人萤火虫(以下简称萤火虫)，而萤火虫的数据结构如下方的表4所示：

表4

1.1、布置萤火虫

在萤火虫蜂群优化算法中，萤火虫的布置并非随机散布在解空间中，而是依数据个体在数据集的特性所产生之对应位置。在本申请实施例中，通过首先采用数据分析软件PAST中的Non-metric MDS功能将数据集中所有数据依照属性值转换成相对应位置(x,y)值，并加至本申请中的萤火虫的数据结构内的initialization Data之坐标轴资料。

其中，Non-metricMDS是功能函数，通过输入多维属性值，该功能函数自动投影出二维图形距离点，大体保持跟多维数据的距离。例如：本申请中提及的准识别属性为多字段的记录，比照起来是多维数据。如何投影到二位屏幕图形成有效的距离展示，可以利用Non-metricMDS功能函数来实现。

请参阅图8，图8是本申请实施例提供的一种数据个体在数据集的对应位置的示意图；

如图8所示，右侧为左侧原始数据表T经过多PAST分析后结果，其中，第1、3、4、5、6、8、9笔资料在"nativecountry"域值皆为"United-States"，因此分析后其位置偏向下方，其中第9和第1笔数据在三个字段属性当中，只有Age字段互相差距为3，比其他同在附近的第4、6笔数据数据属性值上差距小，因此，第9笔在数据集T中与第1笔数据最为接近。在经过PAST分析，数据集T中每笔资料都取得相对应位置，在依自身位置完成萤火虫布置动作。

1.2、亮度更新阶段

在加载数据集后，首先会先进入亮度更新阶段，在此阶段每只萤火虫会搜寻自己感测半径内其他的萤火虫，并以自身为群集初始点将半径内其他萤火虫组成暂时性群集，透过这个暂时性群集来计算每只萤火虫的半径内信息损失量变化程度，最后在依半径内成员多寡来判断是否有无达到k匿名要求。其中，K匿名化的要义在于对样本数据做模糊化，实现每一组样本数据集，达到记录数≥K，K是预设的萤火虫半径内的个数，表征这K个萤火虫代码的记录的距离很近，可以做成一组数据，做相近的匿名化。

因此，半径内成员多寡与信息损失量程度为萤火虫在每次循环中亮度的影响依据，因此本研究萤火虫在每次循环亮度公式如下方的公式(7)和公式(8)所示：

τ_i(t)＝(1-ρ)τ_i(t-1)+γJ_i(t)公式(7)

其中，各参数代表的含义如下：

τ_i(t)：萤火虫i在第t次循环的荧光亮度；

ρ：亮度衰减系数，介于[0，1]；

(1-ρ)：亮度衰减率，主要用来控制过去经验比重，帮助萤火虫不会因为每次的循环过程中产生据烈的变化；

γ：比例常数，用来控制的是此循环搜索解的经验比重；

γJ_i(t)：适应值，为萤火虫i在第t次循环中所在位置的目标函数，主要用来反应是萤火虫i在第t次循环所在位置时，半径成员中相似的程度；

gw_i：萤火虫i半径内成员所形成一个群组；

D(gw_i)：该群组的信息损失量程度；

|gw_i|：萤火虫i半径内成员数量；

|QI|：数据集QI字段数；

k：匿名数；

分母|gw_i|×|QI|部份为萤火虫i半径内的数量与QI字段数，表示该群最坏的信息损失量结果，即Max(D(gw_i))＝|gw_i|×|QI|。当萤火虫i半径内所有萤火虫j的属性值愈相似，则

结果值愈小。反之，若萤火虫i半径内所有萤火虫j的属性值愈不相似，则

结果值愈大；k表示萤火虫i半径内成员数是否有达到k个(k为k匿名参数k)，若没有达到k个，则亮度愈小；若萤火虫i半径内成员总数大于k个，则

表示有达到k匿名的k-1笔相似的要求。

结合图8所示，当k＝3、ρ＝0.6、γ＝0.7，在第t循环时，第1只萤火虫的感测半径内有第4、6、9萤火虫，而第1只萤火虫上一次循环萤火值τ_i(t-1)＝0.5，因此，

1.3、移动阶段

在移动阶段中，萤火虫i会先探测半径内其他萤火虫荧光值比自己本身的萤火值还亮。如果萤火虫i半径内无其他萤火虫的荧光值比萤火虫i亮，则萤火虫i停留在原地不动；如果萤火虫i半径内有萤火虫的荧光值比萤火虫i亮，则挑选最亮的萤火虫(称萤火虫j)之方向靠近。假如萤火虫i半径内最亮的萤火虫同时有两个以上，则萤火虫i会根据数据至数据距离最接近的萤火虫方向移动，其移动方式如下方的公式(9)-公式(11)：

X_i(t+1)＝X_i(t)+sd_ij(t)公式(10)

其中，各参数代表的含义如下：

N_i(t)：萤火虫i半径内荧光值大于萤火虫i的萤火虫

d(i，j)：萤火虫i与萤火虫j两点间距离

萤火虫i在第t次循环时感测半径距离

τ_i(t)：萤火虫i在第t次循环时荧光值亮度

τ_j(t)：萤火虫j在第t次循环时萤火值亮度

X_i(t)：萤火虫i在第i次循环时所在的位置

d_ij(t)：为单位向量，控制飞行的方向，

s：步阶值。

例如：萤火虫i在第t次循环位置gw_i(x，y)＝(0.2，0.5)，而萤火虫i半径内荧光值大于萤火虫i有萤火虫j₁与j₂，其位置分别为

萤火虫j₁荧光值大于萤火虫j₂荧光值，故萤火虫i朝萤火虫j₁移动s距离；而萤火虫i移动后的位置X_i(t+1)＝gw_i(0.2+0.86s，0.5+(-0.52s))。

1.4、区域半径更新阶段

萤火虫i经过移动阶段后，接下来根据感测半径内萤火虫数量来更新萤火虫i在下一次循环时的区域决策半径

萤火虫i区域决策半径

大小由在第t次循环时萤火虫i感测半径内萤火虫多寡来决定D_i(t)的高低，D_i(t)定义为圆面积范围内涵盖的邻居数量。若萤火虫i的D_i(t)愈高，萤火虫i在下一次循环的区域决策半径

愈小；反之，若D_i(t)愈低，萤火虫i在下一次循环的区域决策半径

愈大，若D_i(t)没有变化，则

保持不变。区域决策半径的更新公式和邻居密度公式的计算方式如下方公式(12)-公式(13)所示：

其中，各参数代表的含义如下：

初始的感应半径

Ni(t)：圆面积内邻居的数量

β：常数，代表邻居密度的权重值。

例如：萤火虫i在第t次循环中初始感应半径

N_i(t)＝5、β＝0.2，则

具体的，结合上述步骤说明初始化群中心演化阶段，其具体包括如下步骤：

步骤1：加载数据集并布署代理人萤火虫数据，设定要执行的k匿名数k、初始半径r₀、初始亮度t₀、亮度衰减系数ρ、比例常数γ与要执行循环次数t等相关参数设定；

步骤2：进入循环；

步骤3：萤火虫亮度更新；

步骤4：搜寻半径内邻居的荧光值，并依荧光值亮度或加入后信息损失量最小者来选择前进的方向；

步骤5：朝目标萤火虫移动；

步骤6：更新域区决策半径。

步骤7：返回步骤2，直到执行设定的t次循环后再结束萤火虫演化过程；

步骤8：输出萤火虫最后一次循环的数据值(萤火虫的ID、Data、最后一次循环的萤火值luminance、半径radius、半径内成员集合)，将演化结果带入资料分类阶段。

(2)资料分类阶段，包括：

2.1、逐次分类阶段

数据集在经过演化阶段后，数据个体的代理人萤火虫会记录最后一次循环结果，包括萤火虫的属性数据、坐标位置、最后一次循环荧光值、最后一次循环半径内萤火虫成员数据和感测半径等信息。在数据分类阶段，最初对所有数据的代理人萤火虫中，依亮度最高的萤火虫开始选择。在逐次分类过程中，被选择作为此次分类群集初始点的萤火虫，首先会针对群集初始点萤火虫的感测半径搜寻尚未被分配到其他群集的萤火虫数量，如果萤火虫半径内未被分配至前面群集的萤火虫数量满足k-1笔，则以此萤火虫作为群集起始点，将半径内所有邻居萤火虫做逐笔挑选信息损失量最小k-1笔数据来建立此次k匿名群集；如果被选择的萤火虫半径内的邻居未满足k-1笔资料时，则跳过该萤火虫，找寻下一个最亮萤火虫继续搜索，直到所有萤火虫都被搜索过为止。

在逐次分类过程中，被挑选作为群集始点的萤火虫半径内萤火虫数量大于等于k-1笔优先被建立k匿名群集，等到所有萤火虫半径内萤火虫数量都不满足k-1笔数据时，会作为剩余萤火虫进入到剩余数据处理阶段进行另一分类阶段处理。

具体的，请再参阅图9，图9是本申请实施例提供的一种逐次分类阶段的流程示意图；

其中，在数据集通过演化过后，每只萤火虫都各自带着自己的原始数据、位置、最后一次循环的荧光值、感测半径、邻居成员集合来到逐次数据分类阶段。

如图9所示，逐次分类阶段，包括：

开始；

步骤S901：输入上一阶段的演化结果；

具体的，加载演化阶段的代理人萤火虫信息(荧光值、感测半径、感测半径内邻居)、k匿名的匿名数k。

步骤S902：按荧光亮度由高到低排序；

具体的，将萤火虫的荧光值亮度由高至低排序。

步骤S903：是否还存在可以分类的资料；

具体的，从荧光值最亮的萤火虫开始，搜索萤火虫半径范围内尚未被分配到群集的萤火虫数量；

步骤S904：从半径中取最近的K-1笔资料建立一个群集；

具体的，如果群集起始点萤火虫半径范围内未被分配到前面群集的萤火虫邻居数量未满足k-1笔时，跳出目前的萤火虫，选择下一个最亮的萤火虫，并继续搜索萤火虫半径范围内尚未被分配到群集的萤火虫数量；如果群集起始萤火虫半径范围内未被分配到前面群集的萤火虫邻居数量满足k-1笔时，则将萤火虫做为群集初始点，并依信息损失量最小之方式逐笔加入半径内邻居成员，直至该群集满足k笔资料为止。

重复以上步骤：即，选择下一个最亮的萤火虫，并继续搜索萤火虫半径范围内尚未被分配到群集的萤火虫数量；如果群集起始萤火虫半径范围内未被分配到前面群集的萤火虫邻居数量满足k-1笔时，则将萤火虫做为群集初始点，并依信息损失量最小之方式逐笔加入半径内邻居成员，直至该群集满足k笔资料为止；

直到没有任到一个萤火虫半径范围内未被配分到群集的萤火虫数量满足k-1笔为止，此时，进入步骤S905；

步骤S905：剩余值处理；

具体的，将未被分配到的萤火虫结合成新数据集，进行剩余数据处理；

具体的，进入剩余数据处理阶段，在逐次分类阶段中所剩余未被分配的萤火虫主要分为两类，一种是萤火虫的荧光值低且没有受到其他荧光值较亮的萤火虫吸引；另一种则是在每次逐次建立群集过程中，因为距离群集起始点的萤火虫较远而未被分配到的数据。

剩余数据处理阶段主要是将上述剩余两类型的数据再一次进行数据分类来建立k匿名群集。因此，在此阶段主要有两种处理方式，分别是k-member(以下称KGSO-K)与修改群集起始点选择方式的k-member(以下简称为KGSO-RK)。KGSO-K是将剩余数据作Byun所提出的k-member方法来建立kk匿名之群集，而KGSO-RK在挑群集起始点方式主要从剩余萤火虫中，挑选亮度最高的作为新的群集初始点，并挑选k-1笔信息损失量最小的数据来建立群集，一但该群集成员数满足k笔数据时，重新挑选剩余资料中荧光值最亮的数据作为新的群集起始点并继续进行挑选数据，直到所有的剩余数据皆被分配到适合的群集为止。

步骤S906：输出分类结果；

结束。

本申请实施例提供两种方式进行剩余数据处理：

方式一：原始greedy k-member算法，包括如下步骤：

Step 1.加载数据集、设定匿名数。

Step 2.执行greedy k-member算法。

Step 3.输出分类结果。

方式二：改良式k-member(Revised greedy k-member)算法，包括如下步骤：

Step 1.加载数据集、萤火虫荧光值并设定匿名数。

Step 2.依萤火虫荧光值亮度由高至低排序。

Step 3.挑选荧光值最高的萤火虫作为群集初始点。

Step 4.依信息损失量最小的方式，逐笔加入数据，直到满足k笔数据为止。

Step 5.选择未分配的萤火虫中，荧光值最高者作为新的群集中心点。

Step 6.重复Step 4、Step 5，直到剩余未分配的资料不满足k笔为止。

Step 7.将未分配的萤火虫依数据至剩余阶段的群集的群集间距离最近方式，加到以建立好的群集中。

Step 8.输出分类结果。

其中，上述分类阶段运作方式，是以greedy k-member为基础在建立k匿名的群集，但在数据分类过程中本申请仍与k-member分类方法上有几个不同：

其一，建立群集时，以荧光亮度为群集初始点；

k-member在建立新的群集时，首先会从剩下未分配数据中，挑选离上一个群集起始点最远资料作为新的群集起始点。而本研究方法上，在逐次分类阶段与剩余数据处理阶段所提出方法二都是按照萤火虫荧光值为挑选对象，而萤火虫亮度愈高者，其周遭高度符合k匿名限制和信息损失量最低的情形，因此非常适合当作群集的初始点。

其二，在分类阶段时，以群集初始点半径范围内邻居萤火虫作为要加入群集成员对象；

k-member在建立群集时，必需对整个数据集的数据计算数据至群集间距离结果，并挑出距离最近数据加入至群集中，直至该群集满足k笔资料为止。本研究数据分类过程中逐次分类阶段在建立群集过程，是以被群集起始点半径范围内邻居萤火虫为要加入群集成员对象，并从半径邻居中依数据至群集的距离来进行挑选，直至此群集满足k笔数据为止。

在本申请实施例中，通过两阶段信息分类与选择性大数据信息安全保护机制，一方面，基于风险值的信息分类可以有效的区分信息类别，便于实施信息访问分级管控，提高信息资源的安全性，另一方面，采用基于分类的选择性保护措施，可以有效提高信息检索效率，降低大量资料加密与解密过程中的系统资源损耗(如CPU、内存等)，提高信息资源利用的高效性、可用性。

请参阅图10，图10是本申请实施例提供的一种数据保护装置的结构示意图；

其中，该数据保护装置应用于服务器，如图10所示，该数据保护装置100，包括：

数据获取单元101，用于获取待分类数据；

风险值确定单元102，用于确定所述待分类数据中的每一资料列的风险值；

分类结果单元103，用于根据所述风险值，对所述待分类数据进行风险分类，确定分类结果；

选择性资料保护单元104，用于根据所述分类结果，对所述待分类数据进行选择性资料保护。

需要说明的是，上述装置可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在装置实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

在本申请实施例中，通过获取待分类数据；确定所述待分类数据中的每一资料列的风险值；根据所述风险值，对所述待分类数据进行风险分类，确定分类结果；根据所述分类结果，对所述待分类数据进行选择性资料保护。一方面，通过风险值对待分类数据进行风险分类，确定分类结果，本申请能够确定不同数据的分类结果，另一方面，通过分类结果，对所述待分类数据进行选择性资料保护，本申请能够提高数据加密的效率以及信息检索效率。

请参阅图11，图11是本申请实施例提供的另一种数据保护装置的结构示意图；

其中，该数据保护装置应用于服务器，如图11所示，该数据保护装置110，包括：

资料属性分区单元111，用于根据公有云中的每一资料的资料属性，对所述公有云中的所有资料进行分区，确定每一资料属性对应的区域；

选择性保护单元112，用于确定每一资料属性对应的区域的保护方式，并基于每一资料属性对应的区域的保护方式，对所述公有云中的所有资料进行选择性保护。

在本申请实施例中，所述资料属性包括识别属性、准识别属性、敏感属性以及非识别属性；

所述选择性保护单元112，具体用于：

在本申请实施例中，通过根据公有云中的每一资料的资料属性，对所述公有云中的所有资料进行分区，确定每一资料属性对应的区域；确定每一资料属性对应的区域的保护方式，并基于每一资料属性对应的区域的保护方式，对所述公有云中的所有资料进行保护。通过对公有云中的所有资料进行分区，确定每一资料属性对应的区域，进而确定每一资料属性对应的区域的保护方式，本申请能够提高云端数据加密的效率，提高数据安全性。

请再参阅图12，图12是本申请实施例提供的一种服务器的硬件结构示意图；

如图12所示，该服务器120包括：一个或多个处理器121以及存储器122，图12中以一个处理器121为例。

处理器121和存储器122可以通过总线或者其他方式连接，图12中以通过总线连接为例。

处理器121，用于获取待分类数据；

确定所述待分类数据中的每一资料列的风险值；

根据所述分类结果，对所述待分类数据进行选择性保护。

处理器121，还用于：根据公有云中的每一资料的资料属性，对所述公有云中的所有资料进行分区，确定每一资料属性对应的区域；

确定每一资料属性对应的区域的保护方式，并基于每一资料属性对应的区域的保护方式，对所述公有云中的所有资料进行保护。

存储器122作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的数据保护方法对应的程序指令/模块。处理器121通过运行存储在存储器122中的非易失性软件程序、指令以及模块，从而执行控制器的各种功能应用以及数据处理，即实现上述方法实施例的数据保护方法。

存储器122可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据控制器的使用所创建的数据等。此外，存储器122可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器122可选包括相对于处理器121远程设置的存储器，这些远程存储器可以通过网络连接至控制器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器122中，当被所述一个或者多个处理器121执行时，执行上述任意方法实施例中的数据保护方法。

需要说明的是，上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如图12中的一个处理器121，可使得上述一个或多个处理器可执行上述任意方法实施例中的数据保护方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域普通技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种数据保护方法，其特征在于，所述方法包括：

获取待分类数据；

确定所述待分类数据中的每一资料列的风险值；

根据所述分类结果，对所述待分类数据进行选择性保护。

2.根据权利要求1所述的方法，其特征在于，所述确定所述待分类数据中的每一资料列的风险值，包括：

获取每一资料列中的每一资料项变量的属性类型；

3.根据权利要求2所述的方法，其特征在于，所述预设的价值转换函数，用于：

确定预设的区间范围；

4.根据权利要求2所述的方法，其特征在于，所述属性类型包括数值型属性和类别型属性，所述根据所述属性类型，基于预设的价值转换函数，确定每一所述资料项变量的机密值，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据每一所述资料项变量的机密值，确定每一所述资料列的风险值，包括：

确定每一所述资料项变量对应的安全属性；

6.根据权利要求5所述的方法，其特征在于，所述安全属性包括识别属性、准识别属性、敏感属性以及公开属性，全部的安全属性对应的权重之和为一。

7.根据权利要求1所述的方法，其特征在于，所述根据所述风险值，对所述待分类数据进行风险分类，确定分类结果，包括：

计算所述待分类数据中的每一资料的风险值；

8.根据权利要求1所述的方法，其特征在于，所述分类结果包括高风险资料或低风险资料，所述根据所述分类结果，对所述待分类数据进行选择性保护，包括：

9.一种数据保护装置，其特征在于，所述装置包括：

数据获取单元，用于获取待分类数据；

10.一种服务器，其特征在于，所述服务器包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8任一项所述的方法。