CN108363717A

CN108363717A - 一种数据安全级别的识别检测方法及装置

Info

Publication number: CN108363717A
Application number: CN201711473686.6A
Authority: CN
Inventors: 赵伟; 武新; 崔维力; 刘奥
Original assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Current assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-08-03
Anticipated expiration: 2037-12-29
Also published as: CN108363717B

Abstract

一种数据安全级别的识别检测方法及装置，本发明旨在提供一种识别检测数据安全分级的方法。该方法作用的对象为关系型数据库或大数据服务提供者的存储数据，可为单个关系表，单个存储文件或单个数据库判定其安全级别，级别越高则数据泄漏或损坏后造成的损失越大。该方法以数据单元所含敏感数据多少作为最重要特征，结合数据单元的主题，数据量，对大数据服务平台上尽可能多的数据单元做聚类并根据其结果设定安全分级并可对新的数据单元进行安全级别认定。该种分级方法能全面，准确，有效的评估数据安全级别，为普通数据服务和大数据服务平台应该设定哪种级别的数据安全保护提供参考，为评估大数据服务能力提供支持。

Description

一种数据安全级别的识别检测方法及装置

技术领域

本发明属于数据挖掘领域，涉及到通过大数据应用大数据分析算法对数据安全级别进行检测评估，具体涉及到了数据的表示，特征提取和聚类算法创新及应用。

背景技术

数据往往以一定形式存储在数据库中，方便用户存取和操作。现如今，大数据依托于更广泛更开放的云平台出现，一方面改变着人们的生活方式和对数据的认知，另一方面也对敏感的私有数据的安全保护提出了更高的要求。人们希望数据服务提供者能够安全存储敏感数据并提供可靠地数据服务，尤其是在大数据环境下，因为敏感数据的恶意篡改、泄露、遗失、损坏等会造成非常严重的后果。对于数据服务的提供者，根据数据重要程度提供相应级别的安全保护至关重要，数据安全级别越高，说明数据一旦泄露造成的后果越严重，其所需要的安全保护级别就越高。而现在并没有评估数据安全级别的体系或方法，本发明提供了一种识别检测数据安全分级的方法。

数据大都以数据表的形式存储自数据库中，待评估的数据单元可能是数据表，也可能是一个数据库。评估一个数据单元的安全级别，需要将安全相关的因素提取出来。而这些因素太多，哪些最重要，哪些可以起到一定作用但不那么重要，这些因素对安全级别的影响程度是怎样的，如何将这些因素融合起来综合评估一个数据单元的安全级别，这些问题都是较难解决的。直观认为，数据单元含有的敏感数据越多，其安全级别就会越高。但另外如数据单元主题，数据量多少这些因素，也起到了比较重要的作用。比如某一数据单元敏感数据并不多，但它的主题与国家安全相关，那么它的安全级别依然很高。

数据单元的主题是影响其安全级别的重要因素，而对数据单元主题的划分现在没有可靠地标准，无法将其简单的划分为几类，而且使用人工标准的划分只能依靠人工来识别新数据单元的主题，无法自动化。因此确定一个数据单元的主题依然困难。现如今有很多的自然语言处理方法，能够使用聚类、深度学习等方法确定文本主题等，但对数据库中存储的格式化的数据进行主题分类识别的研究较少，其难度在于如何表示数据单元主题相关特征。比如一张数据表，除了要关注数据表中的各属性的值，还要关注该表有哪些属性。

普通的将影响数据单元安全级别的各因素简单融合叠加，人为设定安全分级的方法太主观，不科学，无法对数据单元进行有效分级，分级结果也不具备说服性。因此要找到科学有效的分级方法。聚类能够在没有标记的情况下将数据自行聚集成多个簇，其恰好能够对应于安全分级，因此聚类对于解决数据安全级别的问题是一个有效手段。采用大量样本，最好是云平台上的全部数据，才能获得更准确科学的安全级别。而大数据量会使聚类过程消耗大量时间和计算间，因此要求聚类方法尽可能简单高效。另一个难题是分类数量的确定。由于数据安全级别需要自动形成最合适的类别，所以常用的k-means聚类算法不能奏效。采用层次聚类方法，通过计算各层聚类后增益熵的方法，能够选取最佳分类，从而确定安全级别个数。

发明内容

本发明的目标是在现有聚类算法基础上，针对大数据服务提供者所存储的大量数据，提出一种能够识别检测数据安全级别的方法，为普通数据服务和大数据服务平台应该设定哪种级别的数据安全保护提供参考，为评估大数据服务能力提供支持。

为了达到上述目的，本发明采取的技术方案为：一种数据安全级别的识别检测方法，包括：

步骤1、构建敏感数据字典；

步骤2、为每个数据单元构建主题相关特征向量，并对大数据平台的数据单元进行聚类，得到主题分类；

步骤3、计算每个数据单元敏感得分并为每个数据单元构建安全相关特征向量；

步骤4、依据安全相关特征向量对大数据平台数据单元进行聚类并设定安全级别；

步骤5、识别检测新数据单元的安全级别。

进一步的，步骤1所述构建敏感数据字典的方法为：

步骤101、将与安全相关的敏感词及其安全权重记录汇集起来；

步骤102、根据敏感词的长度区分存储。

进一步的，步骤2所述得到主题分类的具体方法为：

步骤201、构建主题属性相关特征，包括两部分，前一部分为所有数据表中属性，值为 1或0，1表示某数据单元包含该属性，0表示不包含；后一部分为数据表中数据出现的词，值为1或0，1表示某数据单元数据中出现了该词，0表示未出现；

步骤202、依据特征向量聚类并确定最佳分类数；主要采用Jaccard距离来衡量样本间的距离，各类的距离采用类间样本平均距离；

步骤203、学习主题分类器，利用卷积神经网络CNN训练分类器。

进一步的，步骤3所述构建安全相关特征向量的方法为：

步骤301、计算各数据单元的敏感得分；

步骤302、计算各数据单元的主题特征值；

步骤303、计算各数据单元的数据量倒数；

步骤304、上述3个数值作为各数据单元的特征数据，构成特征矩阵，用于后续聚类设定安全级别。

进一步的，步骤5所述识别检测新数据单元的安全级别的具体步骤为：

步骤501、为新数据单元构建主题相关特征向量，将该向量输入到主题分类器中，得到其主题；

步骤502、构造出安全相关特征向量，并将该向量各维乘以其对应的安全权重得到向量 v；

步骤503、将向量v输入步骤4形成的安全级别分类器中，得到其安全级别。

本发明的另一方面,提供了一种数据安全级别的识别检测装置，包括：

字典模块，用于构建敏感数据字典；

主题向量模块，用于为每个数据单元构建主题相关特征向量，并对大数据平台的数据单元进行聚类，得到主题分类；

安全向量模块，用于计算每个数据单元敏感得分并为每个数据单元构建安全相关特征向量；

安全级别模块，用于依据安全相关特征向量对大数据平台数据单元进行聚类并设定安全级别；

识别模块，用于识别检测新数据单元的安全级别。

进一步的，所述字典模块包括：

汇集单元，用于将与安全相关的敏感词及其安全权重记录汇集起来；

存储单元，用于根据敏感词的长度区分存储。

进一步的，主题向量模块包括：

主题特征单元，用于构建主题属性相关特征，包括两部分，前一部分为所有数据表中属性，值为1或0，1表示某数据单元包含该属性，0表示不包含；后一部分为数据表中数据出现的词，值为1或0，1表示某数据单元数据中出现了该词，0表示未出现；

聚类单元，用于依据特征向量聚类并确定最佳分类数；主要采用Jaccard距离来衡量样本间的距离，各类的距离采用类间样本平均距离；

学习单元，用于学习主题分类器，利用卷积神经网络CNN训练分类器。

进一步的，所述安全向量模块包括：

敏感得分单元，用于计算各数据单元的敏感得分；

主题特征值单元，用于计算各数据单元的主题特征值；

数据量单元，用于计算各数据单元的数据量倒数；

矩阵单元，用于将上述3个数值作为各数据单元的特征数据，构成特征矩阵，用于后续聚类设定安全级别。

进一步的，所述识别模块包括：

主题单元，用于为新数据单元构建主题相关特征向量，将该向量输入到主题分类器中，得到其主题；

安全单元，用于构造出安全相关特征向量，并将该向量各维乘以其对应的安全权重得到向量v；

分类单元，用于将向量v输入步骤4形成的安全级别分类器中，得到其安全级别。

本发明提出的一种数据安全级别的识别检测方法及装置，与现有技术相比，有益效果为：

本发明创新性的构筑了能够表示普通数据库中存储的数据单元主题属性和安全属性的特征向量，并且先后运用了两次高效的层次聚类算法来解决主题划分和安全等级划分的问题，最终能够通过之前的划分来识别检测新数据单元的主题及安全级别。

附图说明

图1是识别检测数据安全分级方法整体过程说明图；

图2是检测新数据单元的安全级别过程说明图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步说明。

本发明提供的识别检测数据安全分级方法包含以下步骤，总体处理流程如图1所示：

步骤1、构建敏感数据字典；

步骤3、计算个数据单元敏感得分并为每个数据单元构建安全相关属性特征向量；

步骤5、识别检测新数据单元的安全级别；

本发明的具体设计实现如下：

1.构建敏感数据字典

敏感数据字典将与安全相关的敏感词及其安全权重记录汇集起来。数据库中，很多属性记录了敏感信息，比如姓名，性别，账号，密码等。而这些属性的安全权重不同，安全权重越高，表示该数据越应该被保护起来，比如性别的权重会低于账号和密码。而权重的赋值可根据需求变化，所有敏感词的权重大于0。一条记录的格式为：“敏感词-权重”，比如“密码-3”。敏感数据字典尽可能全面的将数据表中出现的安全相关属性记录下来。

敏感数据字典的组织形式是根据敏感词的长度区分存储。即词长为1的词记录在一个单独的位置，词长为2的词记录在另一个位置，以此类推。这样存储的好处是识别一个数据表中属性是否为敏感词时，先确定词的长度L，然后直接根据长度定位到第一个长度为L 的词的存储位置，然后遍历，提高了了查词的效率。

2.获取主题分类

主要依靠聚类算法来实现主题分类，包含以下过程。

1)构建主题属性相关特征。

一个主题属性相关特征由两部分组成，前一部分为所有数据表中属性，值为1或0，1 表示某数据单元包含该属性，0表示不包含。后一部分为数据表中数据出现的词，值为1或0，1表示某数据单元数据中出现了该词，0表示未出现。那么l个数据单元，m个属性和n 个词所构成的数据结构举例如下，每个数据单元共m+n个特征：

2)依据特征向量聚类并确定最佳分类数。

每个数据单元的特征不是数值属性，而是分类属性。因此采用Jaccard距离来衡量样本间的距离，各类的距离采用类间样本平均距离。层次聚类的步骤是：首先每个样本作为一个类，然后重复的将两个距离最近的类合并成一个类。每次合并后重新计算类间距离和组内平方误差和(WSS)。最终完成层次聚类。

根据每次合并后计算的组内平方误差和，绘制出拐点图。该图横坐标为类别数目，纵坐标为组内平方误差和。随着聚类数目增多，每个类别中数量越来越少，距离越来越近，因此WSS会随聚类增多增多而减少。关注拐点图斜率变化，当WWS减少的很缓慢时，认为进一步增大聚类数效果不能增强。出现从WWS下降剧烈到下降缓慢的“肘点”时，为最佳分类数k。此时便可以根据各类别的特征来设定主题，比如“经济相关”，“人员信息相关”，“电影信息相关”等主题。

3)学习主题分类器

利用聚类结果，每个样本都有一个主题标记。那么现在数据单元特征为m+n+1个。那么l个数据单元构成了l×(m+n+1)的特征矩阵。利用卷积神经网络(CNN)训练分类器，以该矩阵作为输入。识别新数据单元的主题时，先构造其主题相关特征向量，然后输入训练好的分类器，输出为其主题标志。

3.构建安全相关特征向量

一个数据单元包括三个安全相关属性，为敏感得分a₁，主题a₂和数据量倒数a₃，下面分别说明。

敏感得分能够衡量一个数据单元所含敏感数据的总安全程度。设a_1l为第l个数据单元的敏感得分，计算a_1l首先要将该数据表中的各属性与敏感字典中的敏感词相匹配，匹配过程是：对于数据表l，首先初始化安全权重w_1l＝0，取其第一个属性词，根据该词词长选择要查询的特性词长的敏感字典，然后遍历该字典，若找到改词，则说明该词为敏感词，那么w_1l＝w_1l+w，其中w为该敏感词的安全权重；若该词不在敏感字典中，则其不是一个敏感词，保持w_1l不变，之后依次匹配该数据单元的剩余属性，每次匹配成功，w_1l就加上该词对应的安全权重，最终得到该敏感字典总的安全权重w_1l。敏感得分a_1l的计算如下：

a_1l＝w_1l/w_1max,0＜l≤L

其中w_1max为所有数据单元中安全权重的最大值。显然a_1l满足0<a_1l≤1。

根据第三步的聚类结果，共k个主题，为每个主题设定安全权重，权重大于0，比如电影相关主题权重为1，那么人员信息相关主题权重为3，国家安全信息相关权重为5。设w_2l为第l个数据单元的主题权重，那么其主题特征值a_2l为：

a_2l＝w_2l/w_2max,0＜l≤L

其中w_2max为所有k个主题安全权重的最大值。显然a_2l满足0<a_2l≤1。

设第l个数据单元所存储的字数为n_l，那么该数据单元所含的数据量d_l为：

d_l＝n_l/n_min,0＜l≤L

其中n_min为所有数据单元中所含字数的最小值。显然a_1l满足a_1l≥1。d_l越大，则该数据单元所含数据量越多。当一个数据单元在总数据量不高却有很高的敏感的分时，我们认为它的安全级别会更高，因此需要数据量倒数a₃这一特征。第l个数据单元的数据量倒数a_3l为：

a₃₁＝1/d_l＝n_minn_l,0＜l≤L

显然a_3l满足0<a_3l≤1。

那么l个数据单元构成了l×3的特征矩阵，用于后续聚类设定安全级别。

4.设定安全级别

采用层次聚类法对l个数据单元进行聚类分析。由于数据单元的3个安全相关特征对于安全级别的影响不同，因此需要为这3个特征设定安全权重，设a₁安全权重为s₁，a₂安全权重为s₂，a₃安全权重为s₃。由于a₁，a₂，a₃均为数值属性，因此直接将特征值和权重相乘是有意义的，最后输入聚类算法的特征矩阵为：

最初把每个数据单元看做一个点，采用欧氏距离。类间距离采用类的重心之间的距离，类的重心为该类各变量平均。每次合并后重新计算类间距离和组内平方误差和。最终完成层次聚类。同样利用绘制拐点图的方法选取最佳分类数。根据各类别特征设定安全分级，安全级别越高，说明数据单元的所需的安全保护级别越高。

5.识别检测新数据单元的安全级别

如图2，识别检测新数据单元的安全级别流程如下：首先为新数据单元构建主题相关特征向量，将该向量输入到主题分类器中，得到其主题。之后构造出安全相关特征向量，并将该项量各维乘以其对应的安全权重得到向量v＝(a₁×s₁,a₂×s₂,a₃×s₃)，将v输入安全级别分类器中，得到其安全级别。

安全级别分类器运作过程如下：根据步骤4的结果，类间距离采用类的重心之间的距离，那么每个类都维护着一个重心属性。设p个类的重心分别为c₁＝(x₁,y₁,z₁)，c₂＝(x₂,y₂, z₂)，…，c_p＝(x_p,y_p,z_p)。那么即可计算出新向量v和各重心的距离，判断新数据单元属于哪个安全级别即看该数据单元到那个类的重心距离最小。判断完成后，将该新数据单元加入到该类中并重新计算该类的重心。新重心的计算公式为：

c^new＝cn+v/n+1

其中n为跟新前该类的样本数量。

以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据安全级别的识别检测方法，其特征在于，包括：

步骤1、构建敏感数据字典；

步骤5、识别检测新数据单元的安全级别。

2.根据权利要求1所述的一种数据安全级别的识别检测方法，其特征在于，步骤1所述构建敏感数据字典的方法为：

步骤102、根据敏感词的长度区分存储。

3.根据权利要求1所述的一种数据安全级别的识别检测方法，其特征在于，步骤2所述得到主题分类的具体方法为：

步骤201、构建主题属性相关特征，包括两部分，前一部分为所有数据表中属性，值为1或0，1表示某数据单元包含该属性，0表示不包含；后一部分为数据表中数据出现的词，值为1或0，1表示某数据单元数据中出现了该词，0表示未出现；

4.根据权利要求1所述的一种数据安全级别的识别检测方法，其特征在于，步骤3所述构建安全相关特征向量的方法为：

步骤301、计算各数据单元的敏感得分；

步骤302、计算各数据单元的主题特征值；

步骤303、计算各数据单元的数据量倒数；

5.根据权利要求1所述的一种数据安全级别的识别检测方法，其特征在于，步骤5所述识别检测新数据单元的安全级别的具体步骤为：

步骤502、构造出安全相关特征向量，并将该向量各维乘以其对应的安全权重得到向量v；

6.一种数据安全级别的识别检测装置，其特征在于，包括：

字典模块，用于构建敏感数据字典；

识别模块，用于识别检测新数据单元的安全级别。

7.根据权利要求6所述的一种数据安全级别的识别检测装置，其特征在于，所述字典模块包括：

存储单元，用于根据敏感词的长度区分存储。

8.根据权利要求6所述的一种数据安全级别的识别检测装置，其特征在于，主题向量模块包括：

9.根据权利要求6所述的一种数据安全级别的识别检测装置，其特征在于，所述安全向量模块包括：

敏感得分单元，用于计算各数据单元的敏感得分；

主题特征值单元，用于计算各数据单元的主题特征值；

数据量单元，用于计算各数据单元的数据量倒数；

10.根据权利要求6所述的一种数据安全级别的识别检测装置，其特征在于，所述识别模块包括：