CN113158206A - 一种基于决策树的文档安全等级划分方法 - Google Patents

一种基于决策树的文档安全等级划分方法 Download PDF

Info

Publication number
CN113158206A
CN113158206A CN202110406214.9A CN202110406214A CN113158206A CN 113158206 A CN113158206 A CN 113158206A CN 202110406214 A CN202110406214 A CN 202110406214A CN 113158206 A CN113158206 A CN 113158206A
Authority
CN
China
Prior art keywords
decision tree
document
keyword
judgment
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110406214.9A
Other languages
English (en)
Inventor
吴佩霖
何涛
冯浩
余娅
胡率
赵锦辉
谭俊
邓国如
卫莹
冯伟东
王红卫
王敬靖
代荡荡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110406214.9A priority Critical patent/CN113158206A/zh
Publication of CN113158206A publication Critical patent/CN113158206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2113Multi-level security, e.g. mandatory access control

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于决策树的文档安全等级划分方法,包括以下具体步骤:步骤一、对样本集中所有条件遍历,计算样本集在不同条件下的Gini指数,选出最小值对应的条件作为第一切分点,从而划分处一个叶节点和余下的子节点;步骤二、针对子节点,对剩下条件继续计算新样本集的Gini指数,进行进一步细分,选出Gini指数最小的值作为第二切分点,继续筛选出叶节点和子节点;步骤三、重复该过程,直至实现所有条件的划分,实现决策树的建立;步骤四、重新抓取样本进行判定,依据训练集建立的决策树对新样本进行验证,实现文档密级的判定。本发明实现文档密级的自动判定,极大的降低判定人员的工作量,提高了判定准确度,为公司降低文档泄密风险提供有力保障。

Description

一种基于决策树的文档安全等级划分方法
技术领域
本发明涉及文档保密管理领域,尤其是涉及部署保密检测系统的文档密级判定领域,具体为一种基于决策树的文档安全等级划分方法。
背景技术
文档作为承载各类信息的载体,通常会携带大量涉密信息。在国有军工企业、政府机关、大型公司等涉及关键秘密的机构及部门中,文档的保密至关重要。
信息文档涉密程度由其携带的内容信息决定,国家标准下文档可以分为“绝密”、“机密”、“秘密”,不同密级的文档对应不同的管理办法。与此类似,企业管理中,同样会涉及到不同的企业秘密管理,依据企业涉密事项目录,企业会根据文档的内容对文档进行分级,不同的密级对应不同管理办法,为了确保企业秘密不外泄,企业会利用保密检测系统按时对个人计算机中各类文档进行关键字检索,将具有敏感关键字的文档筛选出来,并完成判定。
当前文档涉密级别的判定主要由人工进行。该方法主要以下显著缺陷,待判定文件数量是被检测对象计算机内文件数量的总和,当采用人工判定时,由于该类文件数量众多,导致判定人员的判定工作量巨大,难以在短期内完成判定工作。
发明内容
本发明提出一种基于决策树的文档安全等级划分方法,通过机器学习算法,对文档涉密程度进行自动划分,实现高敏感、中敏感、低敏感、不敏感等不同等级的划分,实现文档密级的自动判定,极大的降低判定人员的工作量,提高了判定准确度,为公司降低文档泄密风险提供有力保障。
本发明的技术方案:
一种基于决策树的文档安全等级划分方法,包括以下具体步骤:
步骤一、对样本集中所有条件遍历,计算样本集在不同条件下的Gini指数,选出最小值对应的条件作为第一切分点,从而划分处一个叶节点和余下的子节点;
步骤二、针对子节点,对剩下条件继续计算新样本集的Gini指数,进行进一步细分,选出Gini指数最小的值作为第二切分点,继续筛选出叶节点和子节点;
步骤三、重复该过程,直至实现所有条件的划分,实现决策树的建立;
步骤四、重新抓取样本进行判定,依据训练集建立的决策树对新样本进行验证,新样本格式同训练集一样,采用关键字向量进行表示,输入已建立的决策树中,实现文档密级的判定。
所述步骤一中,将文档分为不同的涉密级别,分别记作c1、c2、c3…cn,n∈N,在文档关键字检索过程中,保密检查系统预设关键字记作k1、k2、k3……ki,i∈N,具体i值,由设定抓取的关键字数量决定,根据保密检查系统从单一文件中是否能检测到关键字来确定ki的值,若检测到当前关键字,则ki=1,若没有检测到对应关键字,则ki=0,据此,单一文档根据检测结果可以形成一组关键字向量,可以记作:
k=(k1 k2 … ki),i∈N (4)
关键字向量k为一组0和1组成的行向量,j个文档,每个文档选取i个关键字,组成关键字矩阵k。
所述步骤一中,计算样本集在不同条件下的Gini指数具体为,
文采用CART分类树构建关键字向量和文档涉密级别的关系,在构建决策树的过程中,用Gini指数度量节点的不确定度:
Figure BDA0003022380580000031
其中D代表样本集,|D|是样本集的样本个数,
Figure BDA0003022380580000032
代表第ck类样本的数量。
文档密级划分通常有两种不同情况:一是二分类问题,文档分两类,即“涉密”、“不涉密”;二是多分类,“高敏感”、“中敏感”、“低敏感”、“不敏感”,当涉密判定变成二分类问题时,式(2)可以记为:
Gini=2p(1-p) (6)
其中p为第一类样本的输出概率。
与现有技术相比,本发明的有益效果是:通过机器学习算法,对文档涉密程度进行自动划分,实现高敏感、中敏感、低敏感、不敏感等不同等级的划分,实现文档密级的自动判定,极大的降低判定人员的工作量,提高了判定准确度,为公司降低文档泄密风险提供有力保障。
附图说明
图1为本发明关键字向量和文档涉密级别的关系。
图2为决策树建立过程图。
图3为决策树样本判定过程图。
图4为训练集建立的决策树。
图5为提升泛化能力的决策树。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于决策树的文档安全等级划分方法,包括以下具体步骤:
步骤一、对样本集中所有条件遍历,计算样本集在不同条件下的Gini指数,选出最小值对应的条件作为第一切分点,从而划分处一个叶节点和余下的子节点;
步骤二、针对子节点,对剩下条件继续计算新样本集的Gini指数,进行进一步细分,选出Gini指数最小的值作为第二切分点,继续筛选出叶节点和子节点;
步骤三、重复该过程,直至实现所有条件的划分,实现决策树的建立;
步骤四、重新抓取样本进行判定,依据训练集建立的决策树对新样本进行验证,新样本格式同训练集一样,采用关键字向量进行表示,输入已建立的决策树中,实现文档密级的判定。
在文档密级划分中,可针对涉密级别问题,通过建立决策树判定数学模型,有效达到分类的目的。
不同机构和公司根据各自具体情况,会对文档涉密程度进行不同的划分,为了保证本文算法的通用性,在此将文档分为不同的涉密级别,分别记作c1、c2、c3…cn,n∈N。在文档关键字检索过程中,保密检查系统预设关键字记作k1、k2、k3……ki,i∈N,具体i值,由设定抓取的关键字数量决定。根据系统从单一文件中是否能检测到关键字来确定ki的值,若检测到当前关键字,则ki=1,若没有检测到对应关键字,则ki=0。据此,单一文档根据检测结果可以形成一组关键字向量,可以记作:
k=(k1 k2 … ki),i∈N (7)
关键字向量k为一组0和1组成的行向量,j个文档,每个文档选取i个关键字,可组成关键字矩阵k。如图1所示,文档涉密级别的划分与关键字向量形成一一映射关系。
文档密级划分通常有两种不同情况:一是二分类问题,文档分两类,即“涉密”、“不涉密”;二是多分类,“高敏感”、“中敏感”、“低敏感”、“不敏感”。在绝大数涉密判定中,采用二分类对文档涉密安全进行判定。
CART(Classification and Regression Tree)分类树具有二叉树结构,能实现二分类问题的快速处理,同时兼顾多分类情形,因此为了实现高效率判定,同时很好的兼顾多分类情况,本文采用CART分类树构建关键字向量和文档涉密级别的关系,在构建决策树的过程中,用Gini指数度量节点的不确定度:
Figure BDA0003022380580000051
其中D代表样本集,|D|是样本集的样本个数,
Figure BDA0003022380580000053
代表第ck类样本的数量。当涉密判定变成二分类问题时,式(2)可以记为:
Gini=2p(1-p) (9)
其中p为第一类样本的输出概率。
实施例:
构建训练集
假定通过系统抓取的关键字有9个,即k1、k2、k3、…、k9,判定结果采用多分类,假定判定结果为四类,即“高敏感”、“中敏感”、“低敏感”、“不敏感”。
构建样本集合如下:
Figure BDA0003022380580000052
表1训练集样本集合
存在该关键字,则记为1,不存在该关键字,则记为0,涉密分级四级,分别用1到4的数字表示。对表1进一步数字化,可以表示成表2。
Figure BDA0003022380580000061
表2训练集样本集合的数字抽象
因为篇幅因素,30个样本仅展示其中一部分数据,针对该样本,利用CART分类算法实现决策树的建立,其过程如图2所示。
通过训练集的学习,实现当前条件下决策树的建立,再重新抓取样本进行判定,依据训练集建立的决策树对新样本进行验证,新样本格式同训练集一样,采用关键字向量进行表示,输入已建立的决策树中,实现文档密级的判定。其判定过程可以用图3简要表示。
建立决策树
对表2设定的样本集合建立决策树。仿真结果如图4所示,左边为当前关键字判定为存在时的分支方向,右边节点为当前关键字判定为不存在时的分支方向,参与决策树建立的样本集的样本数为30。
其中gini指数作为判定依据,“高敏感”、“中敏感”、“低敏感”、“不敏感”四个级别分别对应“class1”、“class2”、“class3”、“class4”,依据关键字条件可以将样本集中所有样本划分到这四个级别中。
图4是根据全样本建立的树结构,在该条件下决策树结构较为复杂,能够对训练集的样本进行完美分类。在该情形下,可能存在过拟合的问题,为了进一步提高决策树的泛化能力,提高对验证集的划分能力,需要对决策树进行剪枝处理,在这里,本文采用决策树深度调整的方式实现决策树泛化能力的提升。重新指定决策树的深度为5,对样本集重新建立树结构,结果如图5所示。
构建验证集数据对决策树进行验证,验证集的构建和训练集类似,通过抓取文档关键字,根据文档是否存在关键字将关键字向量抽象成“0”、“1”的组合。利用仿真实验中建立的决策树对验证集数据进行计算。
验证集判定
采用图4和图5中决策树对验证集中样本进行验证,最终构建验证集及计算结果如表3所示。
表3完整决策树验证集结果
Figure BDA0003022380580000071
从决策树分类结果来看,完整树的分类和5层树的分类结果略有区别。从原理上来说,是由于对部分样本进行了合并归类,从泛化能力的角度来考虑,5层树的判断结果具有更强的泛化能力。在实际使用过程中,需要构建足够大的训练集,再通过合适的剪枝或者决策树深度限制,从而使构建的决策树具有更强的泛化能力,实现对检测文档快速准确判定。
以上实施例仅仅是针对本发明技术方案所做的举例说明。本发明所涉及的水文模型参数时变形式构造方法并不限定于在以上实施例中所描述的内容,而是以权利要求所限定的范围为准。本发明所述领域技术人员在该实施例的基础上所做的任何修改或补充或等效替换,均在本发明所要求保护范围内。

Claims (4)

1.一种基于决策树的文档安全等级划分方法,其特征在于,包括以下具体步骤:
步骤一、对样本集中所有条件遍历,计算样本集在不同条件下的Gini指数,选出最小值对应的条件作为第一切分点,从而划分处一个叶节点和余下的子节点;
步骤二、针对子节点,对剩下条件继续计算新样本集的Gini指数,进行进一步细分,选出Gini指数最小的值作为第二切分点,继续筛选出叶节点和子节点;
步骤三、重复该过程,直至实现所有条件的划分,实现决策树的建立;
步骤四、重新抓取样本进行判定,依据训练集建立的决策树对新样本进行验证,新样本格式同训练集一样,采用关键字向量进行表示,输入已建立的决策树中,实现文档密级的判定。
2.根据权利要求1所述的一种基于决策树的文档安全等级划分方法,其特征在于,所述步骤一中,将文档分为不同的涉密级别,分别记作c1、c2、c3…cn,n∈N,在文档关键字检索过程中,保密检查系统预设关键字记作k1、k2、k3……ki,i∈N,具体i值,由设定抓取的关键字数量决定,根据保密检查系统从单一文件中是否能检测到关键字来确定ki的值,若检测到当前关键字,则ki=1,若没有检测到对应关键字,则ki=0,据此,单一文档根据检测结果可以形成一组关键字向量,可以记作:
k=(k1 k2 … ki),i∈N (1)
关键字向量k为一组0和1组成的行向量,j个文档,每个文档选取i个关键字,组成关键字矩阵k。
3.根据权利要求1所述的一种基于决策树的文档安全等级划分方法,其特征在于,所述步骤一中,计算样本集在不同条件下的Gini指数具体为,
文采用CART分类树构建关键字向量和文档涉密级别的关系,在构建决策树的过程中,用Gini指数度量节点的不确定度:
Figure FDA0003022380570000021
其中D代表样本集,|D|是样本集的样本个数,
Figure FDA0003022380570000022
代表第ck类样本的数量。
4.根据权利要求1所述的一种基于决策树的文档安全等级划分方法,其特征在于,文档密级划分通常有两种不同情况:一是二分类问题,文档分两类,即“涉密”、“不涉密”;二是多分类,“高敏感”、“中敏感”、“低敏感”、“不敏感”,当涉密判定变成二分类问题时,式(2)可以记为:
Gini=2p(1-p) (3)
其中p为第一类样本的输出概率。
CN202110406214.9A 2021-04-15 2021-04-15 一种基于决策树的文档安全等级划分方法 Pending CN113158206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110406214.9A CN113158206A (zh) 2021-04-15 2021-04-15 一种基于决策树的文档安全等级划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110406214.9A CN113158206A (zh) 2021-04-15 2021-04-15 一种基于决策树的文档安全等级划分方法

Publications (1)

Publication Number Publication Date
CN113158206A true CN113158206A (zh) 2021-07-23

Family

ID=76868513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110406214.9A Pending CN113158206A (zh) 2021-04-15 2021-04-15 一种基于决策树的文档安全等级划分方法

Country Status (1)

Country Link
CN (1) CN113158206A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115643018A (zh) * 2022-10-14 2023-01-24 浙江星汉信息技术股份有限公司 一种基于区块链的电子档案共享方法与系统
CN116089910A (zh) * 2023-02-16 2023-05-09 北京计算机技术及应用研究所 一种支持多种格式电子文档的密级检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115643018A (zh) * 2022-10-14 2023-01-24 浙江星汉信息技术股份有限公司 一种基于区块链的电子档案共享方法与系统
CN115643018B (zh) * 2022-10-14 2023-09-01 浙江星汉信息技术股份有限公司 一种基于区块链的电子档案共享方法与系统
CN116089910A (zh) * 2023-02-16 2023-05-09 北京计算机技术及应用研究所 一种支持多种格式电子文档的密级检测方法
CN116089910B (zh) * 2023-02-16 2023-10-20 北京计算机技术及应用研究所 一种支持多种格式电子文档的密级检测方法

Similar Documents

Publication Publication Date Title
CN106845265B (zh) 一种文档密级自动识别方法
Sun et al. Detecting anomalous user behavior using an extended isolation forest algorithm: an enterprise case study
CN109379377A (zh) 加密恶意流量检测方法、装置、电子设备及存储介质
US11599667B1 (en) Efficient statistical techniques for detecting sensitive data
CN109117669B (zh) MapReduce相似连接查询的隐私保护方法及系统
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN113158206A (zh) 一种基于决策树的文档安全等级划分方法
CN107273752A (zh) 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法
Zhang et al. An ensemble method for detecting shilling attacks based on ordered item sequences
Harris et al. Fake instagram profile identification and classification using machine learning
Zhu et al. A Quick Negative Selection Algorithm for One‐Class Classification in Big Data Era
CN112001170A (zh) 一种识别经过变形的敏感词的方法和系统
CN110011990A (zh) 内网安全威胁智能分析方法
CN114595689A (zh) 数据处理方法、装置、存储介质和计算机设备
Manaa et al. Unsupervised approach for email spam filtering using data mining
Gurav et al. Survey on automated system for fake news detection using NLP & machine learning approach
Yin et al. A feature selection method for improved clonal algorithm towards intrusion detection
Wulandhari et al. Corruption Cases Mapping Based on Indonesia’s Corruption Perception Index
Nie et al. Optimization of the economic and trade management legal model based on the support vector machine algorithm and logistic regression algorithm
CN117009509A (zh) 数据安全分级方法、装置、设备、存储介质和程序产品
CN115310606A (zh) 基于数据集敏感属性重构的深度学习模型去偏方法及装置
CN114238062A (zh) 板卡烧录装置性能分析方法、装置、设备及可读存储介质
CN106530199A (zh) 基于窗口式假设检验的多媒体综合隐写分析方法
Zhu et al. Bs-net: A behavior sequence network for insider threat detection
CN107577681A (zh) 一种基于社交媒体图片的地域分析、推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination