CN102012985B

CN102012985B - 一种基于数据挖掘的敏感数据动态识别方法

Info

Publication number: CN102012985B
Application number: CN2010105526528A
Authority: CN
Inventors: 林为民; 张涛; 邓松; 费稼轩; 秦超; 邵志鹏; 楚杰; 陈亚东
Original assignee: State Grid Electric Power Research Institute
Current assignee: State Grid Electric Power Research Institute
Priority date: 2010-11-19
Filing date: 2010-11-19
Publication date: 2013-12-25
Anticipated expiration: 2030-11-19
Also published as: CN102012985A

Abstract

一种基于数据挖掘的敏感数据动态识别方法。当各种数据需要进行网络传输、终端处理时，需要判断当前待传输或处理的业务数据是否敏感，根据敏感程度结合管理策略来决定业务数据是否可以进行网络传输等各种操作。通过对现有的敏感数据文档进行分词、量化和归一化处理，得到该敏感数据文档的特征词-文档矩阵，利用主成分分析法对特征词-文档矩阵进行降维，得到降维后的特征词-文档矩阵，再基于BP神经网络对降维后的特征词-文档矩阵进行分类建模，得到敏感数据识别模型，对待识别的文档进行分词、量化、归一化和降维处理后代入敏感数据识别模型中进行识别计算，判断出待识别的文档是否为敏感数据。用于解决数据防泄漏中敏感数据动态识别的问题。

Description

一种基于数据挖掘的敏感数据动态识别方法

技术领域

本发明涉及一种敏感数据动态识别的方法。主要用于解决企业中敏感数据的动态准确的识别，为敏感数据泄漏保护提供支撑。属于信息安全软件领域。

背景技术

数据的保密性、完整性和可用性关系到国家的安全、企业的核心竞争力、个人的隐私，数据安全，作为信息安全领域中的重要课题，正越来越受到关注。

数据安全涵盖了防泄露、防丢失、防滥用三个方面，其中，数据防泄漏是当前尤为突出的热点问题。电子邮件、即时通讯、可移动存储介质的广泛应用，在提升人们工作效率的同时，也不可避免地扩展了数据泄漏的通道，尤其是主动泄密行为，其泄漏途径更是纷繁复杂。面对这样的严峻形势，国内外安全厂商纷纷推出自己的解决方案，目标就是确保数据的安全，防止数据被有意和无意的非法窃取和丢失。

敏感数据泄漏事关国家安全和社会稳定,其防泄漏产品是信息安全的基础性产品，无论从国家安全的高度来看，还是从经济发展的角度来看，敏感数据防泄漏都变得日益重要。

敏感数据防泄漏的关键技术主要包括：敏感数据识别、敏感数据标记、敏感数据阻断与销毁和策略管理等，其中敏感数据识别是敏感数据防泄漏解决方案中非常关键的一环，只有准确地识别出了敏感数据才能对这些数据进行有效保护。因此研究一种能够准确并高效地识别敏感数据的方法能够更好地提高敏感数据防泄漏方案的能力，具有重要的意义。

敏感数据识别主要考虑如下几方面的问题：（1）敏感数据和待识别文档的预处理；（2）敏感数据动态识别模型的建立。对于敏感数据动态识别而言，首先就是要对敏感数据和待识别文档进行分词、量化和归一化处理，得到敏感数据和待识别文档对应的特征词-文档矩阵，然后对特征词-文档矩阵中进行降维处理，再对降维后的敏感数据文档进行训练，得到敏感数据动态识别模型。最后将待识别的文档输入到敏感数据动态识别模型中进行动态识别。

发明内容

本发明的目的是提供一种基于数据挖掘的敏感数据识别方法，来解决数据防泄漏方案中敏感数据的识别问题，通过使用本方法可以实现对企业数据中心中存储的敏感数据的自动、准确和高效的识别。

为了实现上述发明目的，本发明采用的是一种数据挖掘的方法，通过对已知的敏感数据文档向量化和特征提取，组成敏感数据训练样本集，使用BP神经网络来训练学习出一个敏感数据识别模型，最终使用该BP神经网络模型来识别敏感数据。该模型还可以在使用过程中通过不断地学习来提高识别的准确度。

一种基于数据挖掘的敏感数据动态识别方法，包括以下步骤为：

步骤1：流程开始输入敏感数据文档和待识别的文档这两类文档，前者是用于敏感数据识别模型的训练数据，后者由敏感数据识别模型进行运算得出是否为敏感数据文档；

步骤2：对文档进行分词处理，使用中文电子词典将文档中的汉字串与词典中的字符串相匹配，匹配采用逆向最大匹配的方法，从右往左对文档的汉字串进行匹配直到找到最长的匹配，将最后匹配成功的汉字串作为文档的特征词汇；

步骤3：对分词处理后文档中的特征词汇进行统计运算，生成特征词-文档矩阵，记录分词后的特征词在文档中出现的频率；

步骤4：采用向量空间模型对特征词-文档矩阵进行向量化处理，构造出文本特征向量；

步骤5：计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量；

步骤6：根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率，并根据累积贡献率选择对应的特征值计算出主成分，同时计算出文本特征向量空间的主成分后，确定文本特征向量的各个特征分量在各个主成分向量上的载荷，最后得到降维后的主成分分量来代替原来特征向量空间；

步骤7：根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练；如果是则转到步骤8，否则转到步骤13；

步骤8：根据预处理后的敏感数据训练样本集参数，初始化BP神经网络，包括BP神经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值；

步骤9：由BP神经网络来对训练数据集进行运算；

步骤10：计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误差，如果误差超过阈值，则转到步骤11，否则转到步骤12；

步骤11：调整BP神经网络隐层中神经元个数及其权值，转到步骤9；

步骤12：输出一个敏感数据识别模型；

步骤13：根据步骤12得到的敏感数据识别模型，对待识别的文档进行动态识别，并输出动态识别结果；

步骤14：敏感数据识别结束。

本发明的有益效果在于提出了一种基于数据挖掘的敏感数据动态识别方法，主要用于解决数据防泄漏中敏感数据动态识别的问题，通过使用本发明中提出的方法可以快速识别出当前用户操作的数据是否为敏感数据，便于结合策略管理来阻断敏感数据的泄漏。

附图说明

图1是敏感数据识别组成结构图。主要包括：敏感数据动态识别器、敏感数据识别操作核心、文本预处理控制器和敏感数据动态识别控制器。

图2是参考体系结构示意图。表示本发明方法包括的组件。

图3是本发明方法的流程示意图。

具体实施方式

体系结构

图1给出了基于数据挖掘的敏感数据识别方法的组成结构图，它主要包括四个部分：敏感数据识别模型训练器、敏感数据识别操作核心、文本预处理控制器和敏感数据动态识别控制器。图中的敏感数据操作核心包括了在文档被预处理过后对文档集中的敏感数据进行识别的所有具体操作。本发明增加的其它三个部分是用来保证使用数据挖掘的方法进行敏感数据识别的辅助模块，能够保证敏感数据识别更加顺利有效地进行。

下面给出这四个部分的具体介绍：

敏感数据动态识别器：在该发明中进行敏感数据识别主要是使用BP神经网络作为识别敏感数据的模型，通过该模型来完成对敏感数据的动态识别，本发明中由敏感数据识别器来完成模型的建立、训练以及使用模型对敏感数据进行识别。

敏感数据识别操作核心：该部分是在其他三个部分的辅助下完成敏感数据识别具体操作的核心部分，通过将预处理过的文档以多个分向量的方式作为一个识别模型的输入，由该模型来计算文档的敏感程度作为模型的输出从而达到动态识别敏感数据的效果。

文本预处理控制器：由文本分词器提取出来的各敏感关键词的频度并不能直接作为敏感数据识别操作核心中敏感数据识别模型的输入，需要将其量化，使用向量空间模型表示出来，并且为了消除各文档词汇集合中词汇量不同所造成的敏感词汇频度统计上的差异还需要由文本向量处理器来对向量空间模型中各向量进行标准化处理。

敏感数据动态识别控制器：在该发明中，需要通过BP神经网络的方法来得到一个敏感数据的识别模型。该敏感数据识别模型使用敏感数据训练样本集通过BP神经网络训练得到，同时将待识别的文档输入到该模型中得到相应的敏感数据类型，故需要一个控制器来区分是训练用的已知包含敏感数据的文档还是待识别的文档。本专利中对敏感数据动态识别控制的具体实现不做任何限制。

方法流程

1、文本预处理控制器

文本属于非结构化的数据，对可能包含敏感数据的文档进行识别时首先需要对文档进行预处理将其转化为可处理的结构化形式，它把从文本中抽取出的特征词进行量化来表示文本信息，将文档从无结构的原始文本转化为结构化的计算机可识别和处理的信息，这样就可以由计算机挖掘和识别文本中的一些有用信息。

目前对文本的预处理需要考虑如下的几个问题：1）有具体的分词方法，对敏感数据进行分词处理，将文档中有独立含义的词汇统计出来；2）对分词处理后的词汇统计信息这种离散值进行处理，用结构化的形式表示；3）对从不同结构的文本中统计出来的数据要能够屏蔽其差异；4）对统计出来的初始结构化信息表示要能够尽量消除其中无用数据的干扰。

针对上述问题，在本发明中，我们对分词过后的文本采用词频统计的方法来得到文本中词汇的统计信息，对这样一种离散的信息我们采用向量空间模型来得到文本的向量描述。

在选择特征词汇时，本发明主要考虑如下的几个原则：1)特征项要能够确实标识文本内容；2)特征项具有将目标文本与其他文本相区分的能力；3)特征项的个数不能太多；4)特征项分离要比较容易实现。一般在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，本发明中采用词作为文本的特征项，称作为特征词，用T_k表示。

特征词的选取方面我们主要采用对文本进行分词的方法，使用一个中文电子词典与文档中的汉字串匹配，将匹配得到的文本中的汉字串作为文本的特征词。匹配过程采用逆向最大匹配算法，该算法从右往左对文本中的汉字串进行最大匹配，匹配成功则将该汉字串提取出来作为文本的一个特征词，若匹配不成功则将文本中用于匹配的汉字串最前的一个汉字去掉，剩下的汉字串作为新的匹配字段与中文电子词典中的字符串进行匹配，重复上述的过程直到提取出所有的特征词。

对预处理的文本用D_j(j＝1,2,...,n)来表示，经过分词处理得到一个词—文档矩阵，矩阵中的每一个元素表示词T_k在文档D_j中出现的频率。如表1所示：

表1词在文档中出现的频率

上述统计出来的只是文本中词汇的离散信息，接下来使用向量空间模型在词-文档矩阵的基础上生成文本向量表示，当文本被表示为文本空间的向量时，就可以以处理向量的方式来对文本中的一些信息进行计算。在向量空间模型中，主要使用特征词T_k及其权值W_i表示文本。假设要处理的文档集合为D，其表示为:D＝{D₁,D₂,...,D_m}，其中D_i的特征向量定义为D_i＝{w_i1,w_i2,w_i3,...w_in}(i＝1,2,...,m)，w_ij表示第i个文档中第j个词汇的权值，权值的计算采用TFIDF函数：w_ij＝t_ij*log(N/n_j，)其中t_ij表示第i个文档中第j个词汇出现的频率，N表示文档库中文档的总数，n_j表示文档数据库中含有词汇t_j的文档数目。同时对这些值进一步归一化，将其转化为0到1之间的值。

如果把文本中所有的词都作为特征项，那么特征向量的维数将过于巨大，从而导致计算量太大，在这样的情况下，要进一步完成对文本中敏感数据的识别就会变得非常困难。特征抽取的主要功能是在不破坏文本核心信息的情况下尽量减少要处理的词汇数，以此来降低向量空间维数，从而简化计算，提高文本敏感数据识别处理的速度和效率。本发明中主要采用主成分分析法来对文本特征向量空间进行降维处理，该方法从高维度的文本特征向量空间中计算出几个可以综合表示原特征向量空间的几个分向量，作为原文本特征向量空间的主成分，从而达到文本特征降维的目的。

主要工作流程如下：

（1）对归一化后的文本特征向量所对应的矩阵计算其相关系数矩阵；

（2）计算出相关系数矩阵的特征值和特征向量，将得到的特征值按照从大到小的顺序排列；

（3）计算出各特征值在所有特征值和中所占的比例，对各特征值所占的比例进行累加，累加达到一定的累计值后选取所对应的几个特征值作为相应的主成分；

（4）计算文本特征向量的各个特征分量在各个主成分向量上的载荷；

（5）计算各主成分所对应的向量表示；

通过提取文本特征词将文本向量化以及使用主成分分析的方法，将无结构的文本信息转化成计算机可识别和处理的结构化数据—文本特征向量，文本特征向量又进一步地使用主成分分量来代替，提高了计算机动态识别敏感数据的效率和准确度。

2、敏感数据动态识别器

由计算机来完成对敏感数据的动态识别需要有一个识别模型来对输入向量进行运算，模型定义的好坏会直接影响到最后识别的效率和准确度。在本发明中通过建立一个BP神经网络，使用已知的敏感数据文本对该神经网络进行训练，通过对BP神经网络隐层节点结构和权值的调整，使得对BP神经网络的输出和预定义的输出误差控制在一定的范围内，这样最后得到一个敏感数据识别模型，使用该识别模型，以待识别文本的主成分分量作为模型的输入，得到是否为敏感文本。

主要工作流程：

（1）初始化BP神经网络的结构，包括输入层、隐层、输出层、权值和阈值，输入层神经元节点个数为文本主成分向量的维度，输出层为敏感数据级别的向量表示，隐层定义其初始神经元节点结构及权值；

（2）将训练用的已经确定包含敏感数据的文本主成分分量输入BP神经网络，通过BP神经网络的计算得到输出向量，根据输出向量的误差调整BP神经网络隐层的神经元结构和权值，使得输出向量的误差能够被控制在一定的范围内；

（3）当BP神经网络输出向量的误差稳定在预定义的范围内，即得到一个稳定的BP神经网络结构，作为敏感数据的识别模型；

（4）将待识别的文本主成分分量输入到敏感数据识别模型中，得到是否为敏感数据的输出分量；

通过敏感数据识别器，可以实现对敏感数据高效准确的识别，由训练得到的敏感数据识别模型来计算。

文本预处理控制器通过分词和主成分分析法，降低了敏感文档和待识别文档的特征维数。分词是中文文档分类的前提，首先对敏感文档和待识别文档进行预处理将其转化为结构化形式，并将从文本中抽取出的特征词进行量化来表示文本信息，最后使用逆向最大匹配算法对敏感文档及待识别文档和中文电子词典进行匹配，同时进行量化和归一化处理，得到特征词-文档矩阵。但由于中文文本的特点，使得该特征词-文档矩阵中的特征向量维数较大，导致后期的文档识别的计算量太大。为了提高计算的效率，我们采用主成分分析的方法对特征词-文档矩阵中的特征向量空间进行降维处理，通过计算特征词-文档矩阵中的特征向量的主成分代替原有的特征向量，从而达到降维的目的。

敏感数据动态识别器通过BP神经网络对预处理后的敏感文档进行分类训练，得到敏感数据识别模型，再把待识别文档输入到敏感数据识别模型中，实现敏感数据的动态识别。首先根据预处理后的敏感文档特征词-文档矩阵的特征向量维数，初始化BP神经网络输入层、隐层、输出层节点数、权值和阈值，然后对预处理后的敏感文档进行训练，直到满足条件为止，确定BP神经网络最终的输入层、隐层、输出层节点数、权值和阈值，得到敏感数据识别模型。最后将待识别的文档进行预处理后代入到敏感数据识别模型中进行计算，并输出待识别的文档是否为敏感数据，从而达到对敏感数据动态识别的目的。

为了方便描述，我们假设有如下应用实例：

某企业拥有敏感数据文档X，为了建立敏感数据动态识别模型，需要利用BP神经网络对预处理后的敏感数据文档X进行建模，得到敏感数据动态识别模型，便于企业在实际工作过程中，实时对所操作的数据进行动态识别，防止敏感数据的泄漏，保护企业的知识资产。

其具体的实施方案为：

（1）根据文本预处理控制器首先使用逆向最大匹配算法将敏感文档及待识别文档和中文电子词典进行匹配，同时进行量化和归一化处理，最后得到特征词-文档矩阵。

（2）采用主成分分析的方法对特征词-文档矩阵中的特征向量空间进行降维处理，通过计算特征词-文档矩阵中的特征向量的主成分代替原有的特征向量，利用计算得到的主成分构成新的敏感文档及待识别文档。

（3）敏感数据动态识别器根据预处理后的敏感文档特征词-文档矩阵的特征向量维数，初始化BP神经网络输入层、隐层、输出层节点数、权值和阈值，然后对预处理后的敏感文档进行训练，直到满足条件为止，确定BP神经网络最终的输入层、隐层、输出层节点数、权值和阈值，得到敏感数据识别模型。

（4）最后将待识别的文档进行预处理后代入到敏感数据识别模型中进行计算，并输出待识别的文档是否为敏感数据，从而达到对敏感数据动态识别的目的。整个敏感数据动态识别过程结束。

Claims

1.一种基于数据挖掘的敏感数据动态识别方法，其特征就在于，包括以下步骤为：

步骤 5：计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量；

步骤 7：根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练；如果是则转到步骤8，否则转到步骤13；

步骤9：由BP神经网络来对训练数据集进行运算；

步骤12：输出一个敏感数据识别模型；

步骤14：敏感数据识别结束。