CN115858785A

CN115858785A - 一种基于大数据的敏感数据识别方法及系统

Info

Publication number: CN115858785A
Application number: CN202211552694.0A
Authority: CN
Inventors: 陈青民; 郑敏波; 张文敏; 马天宁; 白旭东; 周喜东
Original assignee: Beijing An Xin Tian Xing Technology Co ltd
Current assignee: Beijing An Xin Tian Xing Technology Co ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-28

Abstract

本发明的目的是提供一种基于大数据的敏感数据识别方法及系统，涉及数据识别技术领域，获取企业文本数据；构建企业文本数据的文本特征向量和词向量矩阵；将文本特征向量和词向量矩阵输入到敏感数据识别模型中，确定敏感识别结果；敏感识别结果包括企业文本数据是否存在敏感数据，以及敏感数据的种类和分布位置；敏感数据识别模型是利用企业文本历史标注数据对卷积神经网络进行训练得到的；本发明通过构建文本特征向量、词向量矩阵和敏感数据识别模型，能够准确识别敏感数据以及敏感数据的种类和分布位置，以便后续根据敏感数据的种类和分布位置采取不同的资产保护措施，进而完成数据资产保护。

Description

一种基于大数据的敏感数据识别方法及系统

技术领域

本发明涉及数据识别技术领域，特别是涉及一种基于大数据的敏感数据识别方法及系统。

背景技术

随着大数据时代的到来，各类信息资产已经成为企业的核心资产，但目前这些数据基本处于“裸奔”状态，面临数据泄露的威胁。面对频发的数据安全事件和愈来愈严格的数据安全保护要求，企业虽然都已认识到数据安全保护的重要性，但企业无法确定自己有哪些敏感数据、敏感数据都是什么级别和类型、敏感数据分布在哪里等问题，只有解决这些问题，才能够进一步考虑如何去有针对性地保护这些敏感数据，因此快速发现并识别敏感数据成为数据资产保护的首要任务。

发明内容

本发明的目的是提供一种基于大数据的敏感数据识别方法及系统，能够准确识别敏感数据，进而完成数据资产保护。

为实现上述目的，本发明提供了如下方案：

一种基于大数据的敏感数据识别方法，包括：

获取企业文本数据；

构建所述企业文本数据的文本特征向量；

构建所述企业文本数据的词向量矩阵；

将所述文本特征向量和词向量矩阵输入到敏感数据识别模型中，确定敏感识别结果；所述敏感识别结果包括企业文本数据是否存在敏感数据，以及敏感数据的种类和分布位置；所述敏感数据识别模型是利用企业文本历史标注数据对卷积神经网络进行训练得到的。

可选的，在所述获取企业文本数据之前，还包括：

获取多个企业文本历史数据；

标注每个企业文本历史数据中的敏感数据，确定企业文本历史数据中的敏感标注结果；所述敏感标注结果包括企业文本历史数据是否存在敏感数据，以及敏感数据的种类和分布位置；

构建每个企业文本历史数据对应的历史文本特征向量和历史词向量矩阵；

构建初始卷积神经网络；所述初始卷积神经网络包括依次连接的输入层、卷积层、最大池化层、全连接层和标识输出层；

以历史文本特征向量和历史词向量矩阵为输入，以敏感标注结果为输出，对所述初始卷积神经网络进行训练，得到敏感数据识别模型。

可选的，所述构建所述企业文本数据的文本特征向量，包括：

将所述企业文本数据进行分词处理，得到词序列；

根据简化规则对所述词序列进行简化处理，得到简化词序列；所述简化规则为删除词序列中词性为虚词、连接词或停用词的词语；

计算简化词序列中每个词语的TF-IDF特征值；

连接简化词序列对应的多个TF-IDF特征值，得到文本特征向量。

可选的，所述TF-IDF特征值为：

d_i＝t_i×log(N/n_j)；

其中，d_i表示简化词序列中第i个词语的TF-IDF特征值；t_i表示简化词序列中第i个词语在企业文本数据中的出现次数，N表示企业文本历史数据的总个数，n_j表示不包括简化词序列中第i个词语的企业文本历史数据的个数。

一种基于大数据的敏感数据识别系统，包括：

企业文本数据获取模块，用于获取企业文本数据；

文本特征向量构建模块，用于构建所述企业文本数据的文本特征向量；

词向量矩阵构建模块，用于构建所述企业文本数据的词向量矩阵；

敏感识别模块，用于将所述文本特征向量和词向量矩阵输入到敏感数据识别模型中，确定敏感识别结果；所述敏感识别结果包括企业文本数据是否存在敏感数据，以及敏感数据的种类和分布位置；所述敏感数据识别模型是利用企业文本历史标注数据对卷积神经网络进行训练得到的。

可选的，所述敏感数据识别系统还包括：

企业文本历史数据获取模块，用于获取多个企业文本历史数据；

标注模块，用于标注每个企业文本历史数据中的敏感数据，确定企业文本历史数据中的敏感标注结果；所述敏感标注结果包括企业文本历史数据是否存在敏感数据，以及敏感数据的种类和分布位置；

历史特征向量构建模块，用于构建每个企业文本历史数据对应的历史文本特征向量和历史词向量矩阵；

初始卷积神经网络构建模块，用于构建初始卷积神经网络；所述初始卷积神经网络包括依次连接的输入层、卷积层、最大池化层、全连接层和标识输出层；

敏感数据识别模型确定模块，用于以历史文本特征向量和历史词向量矩阵为输入，以敏感标注结果为输出，对所述初始卷积神经网络进行训练，得到敏感数据识别模型。

可选的，所述文本特征向量构建模块包括：

分词处理单元，用于将所述企业文本数据进行分词处理，得到词序列；

简化处理单元，用于根据简化规则对所述词序列进行简化处理，得到简化词序列；所述简化规则为删除词序列中词性为虚词、连接词或停用词的词语；

TF-IDF特征值计算单元，用于计算简化词序列中每个词语的TF-IDF特征值；

文本特征向量确定单元，用于连接简化词序列对应的多个TF-IDF特征值，得到文本特征向量。

可选的，所述TF-IDF特征值为：

d_i＝t_i×log(N/n_j)；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明的目的是提供一种基于大数据的敏感数据识别方法及系统，其中方法包括：获取企业文本数据；构建企业文本数据的文本特征向量和词向量矩阵；将文本特征向量和词向量矩阵输入到敏感数据识别模型中，确定敏感识别结果；敏感识别结果包括企业文本数据是否存在敏感数据，以及敏感数据的种类和分布位置；敏感数据识别模型是利用企业文本历史标注数据对卷积神经网络进行训练得到的；本发明通过构建文本特征向量、词向量矩阵和敏感数据识别模型，能够准确识别敏感数据以及敏感数据的种类和分布位置，以便后续根据敏感数据的种类和分布位置采取不同的资产保护措施，进而完成数据资产保护。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中一种基于大数据的敏感数据识别方法流程图；

图2为本发明实施例1中初始卷积神经网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示，本实施例提供了一种基于大数据的敏感数据识别方法，包括：

步骤101：获取企业文本数据。

步骤102：构建企业文本数据的文本特征向量。

步骤102，包括：

步骤1021：将企业文本数据进行分词处理，得到词序列。

步骤1022：根据简化规则对词序列进行简化处理，得到简化词序列；简化规则为删除词序列中词性为虚词、连接词或停用词的词语。

步骤1023：计算简化词序列中每个词语的TF-IDF特征值(TF的全称为TermFrequency，含义为词频；IDF的全称为Inverse Document Frequency，含义为逆向文件频率)。

步骤1024：连接简化词序列对应的多个TF-IDF特征值，得到文本特征向量。

其中，TF-IDF特征值为：d_i＝t_i×log(N/n_j)；

步骤103：构建企业文本数据的词向量矩阵。

步骤104：将文本特征向量和词向量矩阵输入到敏感数据识别模型中，确定敏感识别结果；敏感识别结果包括企业文本数据是否存在敏感数据，以及敏感数据的种类和分布位置；敏感数据识别模型是利用企业文本历史标注数据对卷积神经网络进行训练得到的。

此外，本实施例提供的一种基于大数据的敏感数据识别方法，在步骤101之前，还包括：步骤105-步骤109。

步骤105：获取多个企业文本历史数据。

企业系统运营一段时间之后会积累大量的数据库数据和文本数据。采集数据库中元数据信息(包括库名、表名、字段名和注释信息)并抽样收集各表中的一些记录，同时收集系统中的文本文件。对这些样本使用传统的敏感词库、关键字和正则表达式等方法进行敏感数据识别和标注。例如某段包含姓名和身份证信息的文本被标注为极敏感，而另一段包含地名的文本被标注为低敏感。系统运行一段时间，积累了一定的标注过的数据后，可以将这些数据按照8:2的比例分为训练数据集和测试数据集，然后进行卷积神经网络的训练。

步骤106：标注每个企业文本历史数据中的敏感数据，确定企业文本历史数据中的敏感标注结果；敏感标注结果包括企业文本历史数据是否存在敏感数据，以及敏感数据的种类和分布位置。

步骤107：构建每个企业文本历史数据对应的历史文本特征向量和历史词向量矩阵。

构建每个企业文本历史数据对应的文本特征历史向量的方法与构建企业文本数据的文本特征向量的方法相同。

1、数据预处理

对训练数据集中的文本进行分词处理，“jieba”是处理文本分析的常用工具。首先加载词典(词典格式为一个词占一行，每行分3部分，第1部分为词本身，第2部分为词频，第3部分为词性，第2部分和第3部分可省略，3部分之间用空格分开)；其次获取关键词(可进行全模式分词或者精确模式分词，这里使用精确模式分词)并对词性进行标注；最后去除停用词，进一步还可以去除一些虚词和动词。

例如这样一段话“李小福是创新办主任，也是云计算方面的专家”经过精确模式分词后变为“李小福/是/创新办/主任/也/是/云计算/方面/的/专家/”，去除停用词和虚词、名词变为“李小福/创新办/主任/云计算/专家/”。

2、计算文本的TF-IDF特征值

对词的权值的计算是衡量特征的有效方法，使用基于统计方法的TF-IDF方法。其核心思想是：如果某个词在其他文本中出现的次数越少，那么这个词就包含越多的信息，越能够代表该文本的类型；相反，如果在其他文本中也大量出现，那么这个词就不具备代表性。经过分词处理之后，抽取所有文本中的关键词，计算每一文本中关键词的TF-IDF值，组成该文本特征向量V。文本的特征值向量V＝{d₁，d₂，...，d_l}，l为整个关键词的个数。

3、生成词向量矩阵

文本在分成词和短语序列之后，要让计算机通过深度学习来发现其中的敏感特征和规律就需要对词和文本进行向量化建模。词向量最简单的方式是1-of-N的one-hot方式。one-hot就是从很大的词库里选n个频率最高的词，n一般比较大，比如n＝20000，固定这些词的顺序，然后每个词就可以用n维的稀疏向量表示，这个向量只有一个位置的元素是1，其他位置的元素都是0。one-hot方式只是简单的直接映射，所以维数太大。因此使用gensim的word2vec模块进行词向量训练，设置词向量的维度为d(例如100)，词向量上下文最大距离为5，选择连续词袋模型(Continuous Bag-Of-Words Model，CBOW模型)，训练好的词向量模型保存起来。训练数据集(Tset)中的文本输入词向量模型，每个文本可生成对应的词向量矩阵W_vec。

步骤108：构建初始卷积神经网络；初始卷积神经网络包括依次连接的输入层、卷积层、最大池化层、全连接层和标识输出层，如图2所示。

输入层：文本的词向量矩阵为输入数据，每一个W_vec为m*d的矩阵，m为文本中词的数目，d为前面步骤中设置的词向量维度。设A_i∈R^d，R^d表示一个文本中的第i个词语的d维词向量，一个长度为m的文本的词向量矩阵W_vec∈R^m*d。

卷积层：在该层对输入层的数据使用多个卷积核进行卷积运算，提取其特征值。设卷积核为h*d的窗口，设为W并且W∈R^h*d。这里用A_i:_i+h表示从第i个词向量到第i+h个词向量组成的词向量矩阵，是W_vec的一部分。卷积操作就是用卷积核从输入的词向量矩阵中提取特征。特征c_i可以用下面的公式来计算：

c_i＝f(W·A_i:i+h-1+b)。

其中，运算符·表示点乘运算，b表示偏移，而f(x)表示非线性激活函数，常用的激活函数有sigmoid函数、tanh函数和ReLU函数，这里采用tanh函数。

使用2个词、3个词、4个词和5个词4种寸尺的卷积核，即h＝2、3、4和5。设置每种尺寸的卷积核数量为num_filter，例如可以取值为200，这样就有4*num_filter个卷积核在提取特征。每个卷积核在做卷积运算时滑动步长为1。对于每一个卷积核W应用于文本的词向量矩阵，得到的特征向量c＝{c₁,c₂,...,c_m-h+1},c∈R^m-h+1，R^m-h+1为一维向量，维度为m-h+1。

最大池化层：池化层也称为下采样，其主要作用是特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性和训练速度。采样方式有两种：最大值采样和均值采样，最大值采样取特征向量c中的最大值，均值采样计算特征向量c中各元素的平均值。这里使用最大值采样，最大值采样能降低计算量，并保留最重要的特征，且能够提取到文本中的局部依赖关系。经过池化操作后，对不同的特征向量进行拼接，然后连接上前面计算出的TF-IDF特征向量V，构成文本的全局特征向量C＝{T₁，T₂，...，T₄*num_filter，V}，Ti表示不同卷积核提取出的特征向量c的最大值。

全连接层：全连接层的功能是将样本从特征空间映射到识别标记空间，池化后特征向量输入到全连接层，全连接神经网络的参数为权值矩阵W_f和偏置b_f，计算公式如下：

C'＝f(W_f·C+b_f)。

其中，C为文本全局特征向量，C'为标识空间的特征向量。

标识输出层：全连接层后得到的空间特征向量为C'＝{T₁’,T₂’,...,T_k’}，其中k为敏感数据识别种类。此特征向量传给Softmax，可以预测文本最大概率属于某种敏感数据类别。计算每个元素的概率值公式如下，值最大者所在位置即为合适的敏感类别。

Sj表示Softmax函数值；T_j‘'就是C'向量中的一个元素。

该神经网络进行一次前向传播后，利用反向传播来对卷积核的权重等参数进行更新，经过不停的迭代，最终取得最好的模型。

步骤109：以历史文本特征向量和历史词向量矩阵为输入，以敏感标注结果为输出，对初始卷积神经网络进行训练，得到敏感数据识别模型。

对于测试数据集中的数据进行分词和向量化处理后，送入敏感数据识别卷积神经网络模型中，对识别结果进行分析。评价指标有精确率、召回率和F值。对于任意类别构造一个混淆矩阵，如表1所示：

表1混淆矩阵元素表

表1中，TP表示属于该类而被正确识别到该类。FN表示属于该类被错误识别到其他类。FP表示属于其他类而被错误识别。TN表示属于其他类被正确识别。

通过如下指标训练卷积神经网络

精确率(查准率)：

召回率(查全率)：

F值：

F值是查准率和查全率的综合评价指标。选择F值，当β＝1时，记F值为F₁值；

分析测试集数据通过模型的输出结果，分别计算F₁值，如果达到认可指标，如95％，则任务模型训练完成，否则通过调参或者更改初始卷积核的权重重新生成模型。

把待检测的文本进行分词和向量化处理后，送入敏感数据识别卷积神经网络模型中，如果输出为非敏感数据，则认为该文本中不存在敏感数据，输出显示为一般文本，无需特别保护。如果输出为不同分类的不同敏感程度，则输出其敏感程度，该文本则需要特别保护。

建立了敏感数据识别神经网络模型后，就可以对系统中新产生的数据进行识别，所有被识别进入不同分类不同等级敏感程度的数据都将被认为是敏感数据，需要特别保护。同时对这些已经检测出结果的文本加以标注，将其加入训练集，经过一段的时间后，可以重新执行以上步骤对模型进行训练和验证，随着时间的积累，随着训练数据量的增加，将会得到更优的模型，这样就实现了模型的不断更新优化

实施例2

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供了一种基于大数据的敏感数据识别系统，包括：

企业文本数据获取模块，用于获取企业文本数据；

具体的，所述文本特征向量构建模块包括：

其中，所述TF-IDF特征值为：

d_i＝t_i×log(N/n_j)；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于大数据的敏感数据识别方法，其特征在于，包括：

获取企业文本数据；

构建所述企业文本数据的文本特征向量；

构建所述企业文本数据的词向量矩阵；

2.根据权利要求1所述的一种基于大数据的敏感数据识别方法，其特征在于，在所述获取企业文本数据之前，还包括：

获取多个企业文本历史数据；

3.根据权利要求2所述的一种基于大数据的敏感数据识别方法，其特征在于，所述构建所述企业文本数据的文本特征向量，包括：

将所述企业文本数据进行分词处理，得到词序列；

计算简化词序列中每个词语的TF-IDF特征值；

4.根据权利要求3所述的一种基于大数据的敏感数据识别方法，其特征在于，所述TF-IDF特征值为：

d_i＝t_i×log(N/n_j)；

5.一种基于大数据的敏感数据识别系统，其特征在于，包括：

企业文本数据获取模块，用于获取企业文本数据；

6.根据权利要求5所述的一种基于大数据的敏感数据识别系统，其特征在于，所述敏感数据识别系统还包括：

7.根据权利要求6所述的一种基于大数据的敏感数据识别系统，其特征在于，所述文本特征向量构建模块包括：

8.根据权利要求7所述的一种基于大数据的敏感数据识别系统，其特征在于，所述TF-IDF特征值为：

d_i＝t_i×log(N/n_j)；