CN113158206A

CN113158206A - 一种基于决策树的文档安全等级划分方法

Info

Publication number: CN113158206A
Application number: CN202110406214.9A
Authority: CN
Inventors: 吴佩霖; 何涛; 冯浩; 余娅; 胡率; 赵锦辉; 谭俊; 邓国如; 卫莹; 冯伟东; 王红卫; 王敬靖; 代荡荡
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-23

Abstract

本发明提供一种基于决策树的文档安全等级划分方法，包括以下具体步骤：步骤一、对样本集中所有条件遍历，计算样本集在不同条件下的^Gini指数，选出最小值对应的条件作为第一切分点，从而划分处一个叶节点和余下的子节点；步骤二、针对子节点，对剩下条件继续计算新样本集的^Gini指数，进行进一步细分，选出^Gini指数最小的值作为第二切分点，继续筛选出叶节点和子节点；步骤三、重复该过程，直至实现所有条件的划分，实现决策树的建立；步骤四、重新抓取样本进行判定，依据训练集建立的决策树对新样本进行验证，实现文档密级的判定。本发明实现文档密级的自动判定，极大的降低判定人员的工作量，提高了判定准确度，为公司降低文档泄密风险提供有力保障。

Description

一种基于决策树的文档安全等级划分方法

技术领域

本发明涉及文档保密管理领域，尤其是涉及部署保密检测系统的文档密级判定领域，具体为一种基于决策树的文档安全等级划分方法。

背景技术

文档作为承载各类信息的载体，通常会携带大量涉密信息。在国有军工企业、政府机关、大型公司等涉及关键秘密的机构及部门中，文档的保密至关重要。

信息文档涉密程度由其携带的内容信息决定，国家标准下文档可以分为“绝密”、“机密”、“秘密”，不同密级的文档对应不同的管理办法。与此类似，企业管理中，同样会涉及到不同的企业秘密管理，依据企业涉密事项目录，企业会根据文档的内容对文档进行分级，不同的密级对应不同管理办法，为了确保企业秘密不外泄，企业会利用保密检测系统按时对个人计算机中各类文档进行关键字检索，将具有敏感关键字的文档筛选出来，并完成判定。

当前文档涉密级别的判定主要由人工进行。该方法主要以下显著缺陷，待判定文件数量是被检测对象计算机内文件数量的总和，当采用人工判定时，由于该类文件数量众多，导致判定人员的判定工作量巨大，难以在短期内完成判定工作。

发明内容

本发明提出一种基于决策树的文档安全等级划分方法，通过机器学习算法，对文档涉密程度进行自动划分，实现高敏感、中敏感、低敏感、不敏感等不同等级的划分，实现文档密级的自动判定，极大的降低判定人员的工作量，提高了判定准确度，为公司降低文档泄密风险提供有力保障。

本发明的技术方案：

一种基于决策树的文档安全等级划分方法，包括以下具体步骤：

步骤一、对样本集中所有条件遍历，计算样本集在不同条件下的Gini指数，选出最小值对应的条件作为第一切分点，从而划分处一个叶节点和余下的子节点；

步骤二、针对子节点，对剩下条件继续计算新样本集的Gini指数，进行进一步细分，选出Gini指数最小的值作为第二切分点，继续筛选出叶节点和子节点；

步骤三、重复该过程，直至实现所有条件的划分，实现决策树的建立；

步骤四、重新抓取样本进行判定，依据训练集建立的决策树对新样本进行验证，新样本格式同训练集一样，采用关键字向量进行表示，输入已建立的决策树中，实现文档密级的判定。

所述步骤一中，将文档分为不同的涉密级别，分别记作c₁、c₂、c₃…c_n，n∈N，在文档关键字检索过程中，保密检查系统预设关键字记作k₁、k₂、k₃……k_i,i∈N，具体i值，由设定抓取的关键字数量决定，根据保密检查系统从单一文件中是否能检测到关键字来确定k_i的值，若检测到当前关键字，则k_i＝1，若没有检测到对应关键字，则k_i＝0，据此，单一文档根据检测结果可以形成一组关键字向量，可以记作：

k＝(k₁ k₂ … k_i),i∈N (4)

关键字向量k为一组0和1组成的行向量，j个文档，每个文档选取i个关键字，组成关键字矩阵k。

所述步骤一中，计算样本集在不同条件下的Gini指数具体为，

文采用CART分类树构建关键字向量和文档涉密级别的关系，在构建决策树的过程中，用Gini指数度量节点的不确定度：

其中D代表样本集，|D|是样本集的样本个数，

代表第c_k类样本的数量。

文档密级划分通常有两种不同情况：一是二分类问题，文档分两类，即“涉密”、“不涉密”；二是多分类，“高敏感”、“中敏感”、“低敏感”、“不敏感”，当涉密判定变成二分类问题时，式(2)可以记为：

Gini＝2p(1-p) (6)

其中p为第一类样本的输出概率。

与现有技术相比，本发明的有益效果是：通过机器学习算法，对文档涉密程度进行自动划分，实现高敏感、中敏感、低敏感、不敏感等不同等级的划分，实现文档密级的自动判定，极大的降低判定人员的工作量，提高了判定准确度，为公司降低文档泄密风险提供有力保障。

附图说明

图1为本发明关键字向量和文档涉密级别的关系。

图2为决策树建立过程图。

图3为决策树样本判定过程图。

图4为训练集建立的决策树。

图5为提升泛化能力的决策树。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在文档密级划分中，可针对涉密级别问题，通过建立决策树判定数学模型，有效达到分类的目的。

不同机构和公司根据各自具体情况，会对文档涉密程度进行不同的划分，为了保证本文算法的通用性，在此将文档分为不同的涉密级别，分别记作c₁、c₂、c₃…c_n，n∈N。在文档关键字检索过程中，保密检查系统预设关键字记作k₁、k₂、k₃……k_i,i∈N，具体i值，由设定抓取的关键字数量决定。根据系统从单一文件中是否能检测到关键字来确定ki的值，若检测到当前关键字，则k_i＝1，若没有检测到对应关键字，则k_i＝0。据此，单一文档根据检测结果可以形成一组关键字向量，可以记作：

k＝(k₁ k₂ … k_i),i∈N (7)

关键字向量k为一组0和1组成的行向量，j个文档，每个文档选取i个关键字，可组成关键字矩阵k。如图1所示，文档涉密级别的划分与关键字向量形成一一映射关系。

文档密级划分通常有两种不同情况：一是二分类问题，文档分两类，即“涉密”、“不涉密”；二是多分类，“高敏感”、“中敏感”、“低敏感”、“不敏感”。在绝大数涉密判定中，采用二分类对文档涉密安全进行判定。

CART(Classification and Regression Tree)分类树具有二叉树结构，能实现二分类问题的快速处理，同时兼顾多分类情形，因此为了实现高效率判定，同时很好的兼顾多分类情况，本文采用CART分类树构建关键字向量和文档涉密级别的关系，在构建决策树的过程中，用Gini指数度量节点的不确定度：

其中D代表样本集，|D|是样本集的样本个数，

代表第c_k类样本的数量。当涉密判定变成二分类问题时，式(2)可以记为：

Gini＝2p(1-p) (9)

其中p为第一类样本的输出概率。

实施例：

构建训练集

假定通过系统抓取的关键字有9个，即k₁、k₂、k₃、…、k₉，判定结果采用多分类，假定判定结果为四类，即“高敏感”、“中敏感”、“低敏感”、“不敏感”。

构建样本集合如下：

表1训练集样本集合

存在该关键字，则记为1，不存在该关键字，则记为0，涉密分级四级，分别用1到4的数字表示。对表1进一步数字化，可以表示成表2。

表2训练集样本集合的数字抽象

因为篇幅因素，30个样本仅展示其中一部分数据，针对该样本，利用CART分类算法实现决策树的建立，其过程如图2所示。

通过训练集的学习，实现当前条件下决策树的建立，再重新抓取样本进行判定，依据训练集建立的决策树对新样本进行验证，新样本格式同训练集一样，采用关键字向量进行表示，输入已建立的决策树中，实现文档密级的判定。其判定过程可以用图3简要表示。

建立决策树

对表2设定的样本集合建立决策树。仿真结果如图4所示，左边为当前关键字判定为存在时的分支方向，右边节点为当前关键字判定为不存在时的分支方向，参与决策树建立的样本集的样本数为30。

其中gini指数作为判定依据，“高敏感”、“中敏感”、“低敏感”、“不敏感”四个级别分别对应“class1”、“class2”、“class3”、“class4”，依据关键字条件可以将样本集中所有样本划分到这四个级别中。

图4是根据全样本建立的树结构，在该条件下决策树结构较为复杂，能够对训练集的样本进行完美分类。在该情形下，可能存在过拟合的问题，为了进一步提高决策树的泛化能力，提高对验证集的划分能力，需要对决策树进行剪枝处理，在这里，本文采用决策树深度调整的方式实现决策树泛化能力的提升。重新指定决策树的深度为5，对样本集重新建立树结构，结果如图5所示。

构建验证集数据对决策树进行验证，验证集的构建和训练集类似，通过抓取文档关键字，根据文档是否存在关键字将关键字向量抽象成“0”、“1”的组合。利用仿真实验中建立的决策树对验证集数据进行计算。

验证集判定

采用图4和图5中决策树对验证集中样本进行验证，最终构建验证集及计算结果如表3所示。

表3完整决策树验证集结果

从决策树分类结果来看，完整树的分类和5层树的分类结果略有区别。从原理上来说，是由于对部分样本进行了合并归类，从泛化能力的角度来考虑，5层树的判断结果具有更强的泛化能力。在实际使用过程中，需要构建足够大的训练集，再通过合适的剪枝或者决策树深度限制，从而使构建的决策树具有更强的泛化能力，实现对检测文档快速准确判定。

以上实施例仅仅是针对本发明技术方案所做的举例说明。本发明所涉及的水文模型参数时变形式构造方法并不限定于在以上实施例中所描述的内容，而是以权利要求所限定的范围为准。本发明所述领域技术人员在该实施例的基础上所做的任何修改或补充或等效替换，均在本发明所要求保护范围内。

Claims

1.一种基于决策树的文档安全等级划分方法，其特征在于，包括以下具体步骤：

2.根据权利要求1所述的一种基于决策树的文档安全等级划分方法，其特征在于，所述步骤一中，将文档分为不同的涉密级别，分别记作c₁、c₂、c₃…c_n，n∈N，在文档关键字检索过程中，保密检查系统预设关键字记作k₁、k₂、k₃……k_i,i∈N，具体i值，由设定抓取的关键字数量决定，根据保密检查系统从单一文件中是否能检测到关键字来确定k_i的值，若检测到当前关键字，则k_i＝1，若没有检测到对应关键字，则k_i＝0，据此，单一文档根据检测结果可以形成一组关键字向量，可以记作：

k＝(k₁ k₂ … k_i),i∈N (1)

3.根据权利要求1所述的一种基于决策树的文档安全等级划分方法，其特征在于，所述步骤一中，计算样本集在不同条件下的Gini指数具体为，

其中D代表样本集，|D|是样本集的样本个数，

代表第c_k类样本的数量。

4.根据权利要求1所述的一种基于决策树的文档安全等级划分方法，其特征在于，文档密级划分通常有两种不同情况：一是二分类问题，文档分两类，即“涉密”、“不涉密”；二是多分类，“高敏感”、“中敏感”、“低敏感”、“不敏感”，当涉密判定变成二分类问题时，式(2)可以记为：

Gini＝2p(1-p) (3)

其中p为第一类样本的输出概率。