CN107368542B

CN107368542B - 一种涉密数据的涉密等级评定方法

Info

Publication number: CN107368542B
Application number: CN201710503902.0A
Authority: CN
Inventors: 孙建强; 陆腾
Original assignee: Shandong Huasoft Golden Shield Software Co ltd
Current assignee: Shandong Huasoft Golden Shield Software Co ltd
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2020-08-14
Anticipated expiration: 2037-06-27
Also published as: CN107368542A

Abstract

一种涉密数据的涉密等级评定方法，系统可使用敏感数据特征库建立一个综合考虑各个特征的模型进行涉密文本的涉密等级识别。支持追加训练功能，特征库可在通过用户添加新的训练样本不断完善对敏感数据识别的覆盖度，同时利用更新后的特征库重新训练、升级模型，提高模型的预测性能.极大简化用户操作，无需定义关键字等信息。只需将敏感文档输入系统即可完成敏感特征的自动提取，自动建立涉密等级的判断模型。在需要判断未知涉密等级的文本时，用户只需设置未知文本的路径，即可通过训练好的模型预测出相应的涉密等级。敏感数据识别的覆盖度高，同时考虑不同的敏感数据对于涉密等级划分的作用不同。预测效果更加准确。

Description

一种涉密数据的涉密等级评定方法

技术领域

本专利涉及计算机信息涉密数据领域，具体涉及一种涉密数据的涉密等级评定方法。

背景技术

近年来随着信息安全管控点正在经历从网络安全到内容安全的转变，如何防止内部敏感数据、隐私信息泄露成为安全防护的重点。这就需要从数据内容本身出发，分析内容的敏感性以及敏感程度以满足未来各行业用户信息化发展中面临的合规及风控需求。

目前市面上对于敏感数据的感知多采用定义敏感关键字、正则表达式、文件MD5值的方式，此类技术需要用户手动收集各类敏感信息相关的关键字等特征。系统将根据用户输入的关键字、正则表达式、MD5值等信息进行敏感数据的扫描和匹配。

上述方法的问题在于：1.用户手动定义敏感关键字、正则表达式、文件MD5值的过程繁琐，普通用户难以收集有效的敏感信息特征。2.由于“关键字比对”仅仅是对于设定的关键字进行“有”或“无”的判断，因而这种分类方式较为粗糙，对分类的判断不够准确。例如，含有“合同”关键词的并不一定是法律合同，而含有“协议”但无“合同”关键词的，也有可能是法律合同。3.基于关键词和正则表达式搜索文本的技术存在误报、漏报、缺少细分能力、以及无法应对故意隐瞒的局限，以下列举了一些实例。

-误报：

大量含有“合同”关键词的文件被误报为合同文档。

绝大部分含有“年报”关键词的都与上市公司年报无关。

18位连续数字被误报为身份证号，16位数字被误报银联卡号。

-漏报：

专利的权利说明书中一般没有关键词“专利”。

几乎所有的机关央企公文中都没有关键词“公文”。

合同文档通篇使用“协议”而无“合同”两字。

发明内容

本发明为了克服以上技术的不足，提供了一种简化用户操作、无须定义关键字、自动建立涉密数据涉密等级的评定方法。

本发明克服其技术问题所采用的技术方案是：

一种涉密数据的涉密等级评定方法，包括如下步骤：

a)用户将N个文本批量添加至计算机；

b)对导入的文本进行预处理，所述预处理包括：删除空格符、制表符、通过hash函数生成相应的散列值；

c)对hash函数生成的散列值与数据库中已有的文本hash散列值进行比对，如果步骤b)中hash函数生成的散列值已经存在，则不添加到训练样本集或测试样本集中，如果数据库中已有的文本hash散列值不存在步骤b)中hash函数生成的散列值，则步骤b)中hash函数生成的散列值添加到训练样本集或测试样本集中；

d)对导入的N个文本的语句进行分词处理；

e)通过公式

计算出步骤d)中分词后的每个词的词频TF，其中n_i,j为第j个文本中含有第i个词的个数，通过

计算出步骤d)中分词后的每个词的逆向文件频率IDF_i，其中|D|为数据库中总的文本个数，{j:t_i∈d_j}为含有第i个词的文本个数，t_i为第i个词，d_j为第j个文档；

f)通过公式X_j＝[x_1,j,x_2,j,…,x_i,j]计算机j个文本的向量，其中x_i,j＝TF_i,j×IDF_i；

g)将步骤f)中计算得到的文本向量集合随机分成训练集和测试集；

h)通过公式

计算训练集中的文本涉密等级为I的先验概率P{C_I}，其中M为涉密等级的级数，C_I为训练集中涉密等级为I的文本向量组成的集合，#{j:X_j∈C_I}为C_I中含有的文本样本个数；

i)通过公式

计算词汇J在涉密等级为I中出现的条件概率P{t_J|C_I}，其中X_k为训练集中第K个文本向量，x_k,s为X_k中第s个分量，n为词汇类别总数，α取值范围为0.001-1之间的以千分之一为单位的小数；

j)通过公式

计算出现为本k以及该文本的涉密等级为I的联合密度P{X_k,C_i}，其中c为概率求和等于1的常数；

k)利用公式C^预测＝argmax{P{X_k,C_I}}计算测试集中测试文本X_k的涉密等级类别C^预测；

l)α从取值0.001开始一直到1为止以千分之一为单位取1000个值，将1000个α取值分别通过步骤i)-步骤k)计算出1000个C^预测，分别将每一C^预测中预测的各个文本的涉密等级与各个文本真实的涉密等级进行比对，将对比相一致的文本个数除以文本总数计算得到定义模型的正确率R_正确率，找到1000个R_正确率中的最大值，定义为

中对应的α即为1000个α中的最大值，标记为α_max；

m)将α_max导入步骤i)中，通过步骤i)-步骤k)计算出最终的文本涉密等级。

进一步的，上述步骤d)中的分词处理采用LTP分词法或Standford的NLP分词法或FudanNLP分词法或HanLP分词法。

进一步的，在步骤f)后增加特征选择或特征生成的步骤，所述特征选择或特征生成的步骤为主成分分析或线性判别分析或基于信息论的信息增益或Gini Index指标的特征选择方法。

本发明的有益效果是：本涉密数据的涉密等级评定方法由程序自动完成提取并追加至特征库，系统可使用敏感数据特征库建立一个综合考虑各个特征的模型进行涉密文本的涉密等级识别。支持追加训练功能，特征库可在通过用户添加新的训练样本不断完善对敏感数据识别的覆盖度，同时利用更新后的特征库重新训练、升级模型，提高模型的预测性能.极大简化用户操作，无需定义关键字等信息。只需将敏感文档输入系统即可完成敏感特征的自动提取，自动建立涉密等级的判断模型。在需要判断未知涉密等级的文本时，用户只需设置未知文本的路径，即可通过训练好的模型预测出相应的涉密等级。敏感数据识别的覆盖度高，同时考虑不同的敏感数据对于涉密等级划分的作用不同。预测效果更加准确。

具体实施方式

下面对本发明做进一步说明。

一种涉密数据的涉密等级评定方法，包括如下步骤：

a)用户将N个文本批量添加至计算机。

b)对导入的文本进行预处理，所述预处理包括：删除空格符、制表符、通过hash函数生成相应的散列值。

c)对hash函数生成的散列值与数据库中已有的文本hash散列值进行比对，如果步骤b)中hash函数生成的散列值已经存在，则不添加到训练样本集或测试样本集中，如果数据库中已有的文本hash散列值不存在步骤b)中hash函数生成的散列值，则步骤b)中hash函数生成的散列值添加到训练样本集或测试样本集中。其目的是根据步骤b)中hash函数生成的散列值判断新导入的文本样本是否在之前的模型训练中已经用过。为了提高系统的运算效率及模型的可靠性，防止用户由于遗忘所造成的同一个文本多次导入系统进行模型训练，进而导致后续的特征分布与实际分布偏差过大，步骤c)通过查阅历史上已有的文本hash散列值，只允许之前未出现的文本样本添加到训练样本集或测试样本集中。

d)对导入的N个文本的语句进行分词处理。计算机并不具有人类的智慧，不能读懂文字，所以必须把文本转化成计算机能够理解的形式，即进行文本表示。而一个文本表示往往是由多个特征对应的数值(或权重)组成的多元向量。因此，要生成一个文本表示必须确定文本包含的特征进而通过观察或计算得到每个特征对应的取值(或权重)。一个文本是由词组成的，所以很自然的可以把词看成文本的特征。通过语句进行分词可以确定一个文本是由哪些词汇组成的。

e)通过公式

计算出步骤d)中分词后的每个词的逆向文件频率IDF_i，其中|D|为数据库中总的文本个数，{j:t_i∈d_j}为含有第i个词的文本个数，t_i为第i个词，d_j为第j个文档。词的权重是与衡量该词在其所在文本中的重要性相关的指标，即权重越大代表该词在其所在文本中越重要。词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

f)通过公式X_j＝[x_1,j,x_2,j,…,x_i,j]计算机j个文本的向量，其中x_i,j＝TF_i,j×IDF_i，可以把没一个文本表示成对应的向量形式。

g)将步骤f)中计算得到的文本向量集合随机分成训练集和测试集，其中训练集用于下面步骤中的模型训练，而测试集用来测试模型是否是过学习(或过拟合)以及对模型的预测质量相关的指标(这里我们用正确率来衡量模型的预测质量)。

h)通过公式

i)通过公式

计算词汇J在涉密等级为I中出现的条件概率P{t_J|C_I}，其中X_k为训练集中第K个文本向量，x_k,s为X_k中第s个分量，n为词汇类别总数，α取值范围为0.001-1之间的以千分之一为单位的小数，即α取值为0.001,0.002，…1这1000个取值中的一个。

j)通过公式

计算出现为本k以及该文本的涉密等级为I的联合密度P{X_k,C_i}，其中c为概率求和等于1的常数，因其取值不影响最终文本类分类结果，这里不妨让c＝1；k)利用公式C^预测＝argmax{P{X_k,C_I}}计算测试集中测试文本X_k的涉密等级类别C^预测；

中对应的α即为1000个α中的最大值，标记为α_max；

本涉密数据的涉密等级评定方法由程序自动完成提取并追加至特征库，系统可使用敏感数据特征库建立一个综合考虑各个特征的模型进行涉密文本的涉密等级识别。支持追加训练功能，特征库可在通过用户添加新的训练样本不断完善对敏感数据识别的覆盖度，同时利用更新后的特征库重新训练、升级模型，提高模型的预测性能.极大简化用户操作，无需定义关键字等信息。只需将敏感文档输入系统即可完成敏感特征的自动提取，自动建立涉密等级的判断模型。在需要判断未知涉密等级的文本时，用户只需设置未知文本的路径，即可通过训练好的模型预测出相应的涉密等级。敏感数据识别的覆盖度高，同时考虑不同的敏感数据对于涉密等级划分的作用不同。预测效果更加准确。

步骤d)中的分词处理可以采用LTP分词法或Standford的NLP分词法或FudanNLP分词法或HanLP分词法中的任意一种。进一步的，在步骤f)后增加特征选择或特征生成的步骤，所述特征选择或特征生成的步骤为主成分分析或线性判别分析或基于信息论的信息增益或Gini Index指标的特征选择方法。

Claims

1.一种涉密数据的涉密等级评定方法，其特征在于，包括如下步骤：

a)用户将N个文本批量添加至计算机；

d)对导入的N个文本的语句进行分词处理；

e)通过公式

h)通过公式

i)通过公式

j)通过公式

中对应的α即为1000个α中的最大值，标记为α_max；

2.根据权利要求1所述的涉密数据的涉密等级评定方法，其特征在于：所述步骤d)中的分词处理采用LTP分词法或Standford的NLP分词法或FudanNLP分词法或HanLP分词法。

3.根据权利要求1所述的涉密数据的涉密等级评定方法，其特征在于：在步骤f)后增加特征选择或特征生成的步骤，所述特征选择或特征生成的步骤为主成分分析或线性判别分析或基于信息论的信息增益或Gini Index指标的特征选择方法。