CN112487475A

CN112487475A - 一种涉密载体风险分析方法及系统

Info

Publication number: CN112487475A
Application number: CN202011374168.0A
Authority: CN
Inventors: 高希敏; 张甲弟; 闫立平; 翟彦超; 李静; 焦永阳; 何川; 林晓婷
Original assignee: Beijing Jinghang Computing Communication Research Institute
Current assignee: Beijing Jinghang Computing Communication Research Institute
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-12
Anticipated expiration: 2040-11-30
Also published as: CN112487475B

Abstract

本发明涉及一种涉密载体风险分析方法及系统，属于风险分析技术领域，解决了现有技术中缺乏对涉密载体的风险预警、管控，导致信息安全隐患大的问题。该方法包括：基于获取的样本涉密载体属性信息数据集，利用权值分类结合决策树建立风险预测模型；利用所述风险预测模型对待检测涉密载体进行检测获得风险值及风险属性频率值；将所述风险值及风险属性频率值进行图形化展示。该方法通过对待检测涉密载体进行风险预测，能够有效辅助涉密载体的管控，提供涉密信息的安全性。

Description

一种涉密载体风险分析方法及系统

技术领域

本发明涉及风险分析技术领域，尤其涉及一种涉密载体风险分析方法及系统。

背景技术

当前，保密形势日趋严峻，保密管理工作的重要性在涉密单位中尤为突出，其中涉及到的秘密多、范围广、级别高，保密对于涉密单位就是保生存、保发展。

在涉密信息领域，企业单位重点关注的是信息安全，特别是涉密载体的制作、留存、使用及闭环管理，已经贯穿企业单位日常生产、工作的各个环节，目前，针对涉密载体使用情况统计分析方式，应用比较广泛的有传统人工纸质管理和载体管理系统审计两种方式。第一种方式，将载体的状态、使用情况等人为记录到纸质载体或者电子文档中，人工比对数据；第二种方式，通过载体管理系统，将载体从产生至销毁闭环的过程记录在系统中，单位管理员可随时查看相关信息。

现有技术至少存在以下缺陷，一是，应用传统人工纸质管理的方式，手续繁杂、工作效率低、管控过程控制力量薄弱、存在数据信息记录漏填、篡改及丢失的风险，信息精准度不高且无法全面、实时展现载体留存使用情况。同时，在涉密载体的收发和传递过程中无法全过程监管，涉密载体未经授权带出、借用超期不还等违规使用现象时有发生，对涉密信息的保密管理工作带来了极大安全隐患。二是，应用载体管理系统的方式，通过电子化信息管理手段，基本能够解决传统人工纸质管理的弊端，但只局限于对载体的制作产生、使用、闭环及载体台账进行基本管理，着重事后管控，缺乏对涉密载体进行多维度的综合统计及风险分析，不能进行有效的风险预警管控，无法从全局展现企业单位整体的载体保密安全态势。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种涉密载体风险分析方法及系统，用以解决现有技术中缺乏对涉密载体的风险预警、管控，导致信息安全隐患大的问题。

一方面，本发明提供了一种涉密载体风险分析方法，包括以下步骤：

基于获取的样本涉密载体属性信息数据集，利用权值分类结合决策树建立风险预测模型；

利用所述风险预测模型对待检测涉密载体进行检测，获得风险值及风险属性频率值；

将所述风险值及风险属性频率值进行图形化展示。

进一步的，所述基于获取的样本涉密载体属性信息数据集，利用权值分类结合决策树建立风险预测模型的步骤，包括：

获取所述样本涉密载体属性信息数据集，所述数据集中包含N个涉密载体属性信息数据样本；

执行重复训练过程，以获得多个决策树，所述重复训练过程包括：从所述数据集中有放回的抽取N个样本组成样本训练集；利用所述样本训练集构建决策树；

根据训练获得的每一决策树的准确率为每一所述决策树分配权值，进而获得风险预测模型。

进一步的，所述利用所述样本训练集构建决策树的步骤，包括：

从所述样本训练集的样本中均随机选取预设个数的属性信息，所述预设个数小于每一所述样本中属性信息的数量；

基于选取的所述属性信息以及样本训练集，利用ID3算法构建获得决策树。

进一步的，所述根据训练获得的每一决策树的准确率为每一所述决策树分配权值，进而获得风险预测模型的步骤，包括：

利用数据集中样本训练集的补集对相应的决策树进行测试，获得所述决策树的准确率；

遍历每一所述决策树，获得每一决策树的准确率；

以决策树的准确率作为所述决策树的权值，进而获得风险预测模型。

进一步的，所述利用所述风险预测模型对待检测涉密载体进行检测，获得风险值及风险属性频率值的步骤，包括；

将待检测涉密载体的属性信息导入风险预测模型，获得所述风险预测模型中每一决策树的输出值；

根据每一决策树的输出值及权值获得风险预测模型输出的风险值；

统计风险判定结果为有风险的所有决策树中每一属性信息的出现次数，将该次数作为属性频率值，并进行降序排序，取前预设个数的属性频率值对应的属性信息作为风险属性，对应的属性频率值作为风险属性频率值。

进一步的，具体包括：

所述决策树的风险判定结果为有风险时，其对应的风险值为：

r_i＝d_i，

所述决策树的风险判定结果为无风险时，其对应的风险值为：

r_i＝1-d_i，

所述风险预测模型输出的风险值r为：

其中，r_i表示决策树的风险值，d_i表示所述决策树对应的权值，i＝1、2、3...n，n表示所述风险预测模型中的决策树的数量。

进一步的，所述属性信息包括，涉密载体的归属、状态或时间，所述归属包括涉密载体责任部门或责任人，所述状态包括留用、外发或销毁，所述时间包括制作时间或留存超期时间。

另一方面，本发明提供了一种涉密载体风险分析系统，包括：

模型建立模块，用于基于获取的样本涉密载体属性信息数据集，利用权值分类结合决策树建立风险预测模型；

风险预测模块，用于利用所述风险预测模型对待检测涉密载体进行检测，获得风险值及风险属性频率值；

展示模块，用于将所述风险值及风险属性频率值进行图形化展示。

进一步的，所述模型建立模块，还用于：

进一步的，所述风险预测模块，还用于：

与现有技术相比，本发明至少可实现如下有益效果之一：

1、本发明提出的涉密载体风险分析方法及系统，通过权值分类结合决策树建立风险预测模型，并基于涉密载体的属性信息对其风险进行预测，以有效辅助对涉密载体的管控，提高涉密载体的信息安全性。此外，基于多个决策树能够获得导致该涉密载体存在风险的主要属性信息，以便后期根据该属性信息进行重点跟踪，及时发现处理潜在风险威胁，进行源头管控，以有效预防涉密载体信息泄露而造成安全隐患，从而能够克服现有技术中无法对涉密载体有效管控以及事后管控的缺陷。

2、本发明通过对多个待检测涉密载体进行风险分析，能够获得每一涉密载体的风险值及风险属性频率值，进而可以在对应时间内，根据每一待检测涉密载体所属部门或单位，获得各部门的有风险的涉密载体占比，或单位内有风险的涉密载体数量变化趋势并进行图像化展示，还可以对涉密载体超期未闭环情况、各类密级载体制作变化趋势情况等进行综合评估，预判风险，提前预防、管控，为企业保密信息安全提供管理依据。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例涉密载体风险分析方法的流程图；

图2为本发明实施例涉密载体风险分析系统的示意图。

附图标记：

110-模型建立模块；120-风险预测模块；130-展示模块。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种涉密载体风险分析方法。如图1所示，该方法包括以下步骤：

S110、基于获取的样本涉密载体属性信息数据集，利用权值分类结合决策树建立风险预测模型。具体的，样本涉密载体属性信息数据集包括多个(N个)涉密载体样本，每一样本所包含的数据包括，涉密载体的属性信息，其中，涉密载体的属性信息具体包括涉密载体的归属、状态或时间，归属包括涉密载体责任部门或责任人，状态包括留用、外发或销毁，时间包括制作时间或留存超期时间。

S120、利用该风险预测模型对待检测涉密载体进行检测获得风险值及风险属性频率值。

S130、将风险值及风险属性频率值进行图形化展示。

优选的，可以采用该方法对企业或单位内各部门的涉密载体进行风险预测，并可以根据预测结果、风险属性信息、预测时间，进行图像化展示，示例性的，可以利用占比图展示各部门有风险涉密载体的占比，利用折线图展示企业或单位有风险涉密载体的数量变化趋势。在形成的企业或单位涉密载体风险信息数据库的基础上，可以对有风险涉密载体以部门或个人为单位的分布情况、涉密载体超期未闭环情况、各类密级载体制作变化趋势情况等进行综合评估，预判风险，提前预防、管控，为企业保密信息安全提供管理依据。

优选的，基于获取的样本涉密载体属性信息数据集，利用权值分类结合决策树建立风险预测模型的步骤，包括：

获取样本涉密载体属性信息数据集，该数据集中包含N个涉密载体属性信息数据样本。

执行重复训练过程，以获得多个决策树，该重复训练过程包括：从数据集中有放回的抽取N个样本组成样本训练集；利用样本训练集构建决策树。其中，随机有放回的抽样是指，在数据集中随机抽取一个样本之后，数据集中仍包含N个样本，并不从数据集中去掉该样本，即抽取第二个样本时，仍有可能在包含N个样本的数据集抽到第一次抽到的样本。这种随机有放回的抽样是为了避免每次获得的样本训练集都相同，这样会导致训练出来的决策树分类结果也相同。有放回则保证了每棵树的训练集有交叉，使得每颗树分类结果的“有偏”性减小，有利于最终生成模型的投票表决。

根据训练获得的每一决策树的准确率为每一决策树分配权值，进而获得风险预测模型。

优选的，利用样本训练集构建决策树的步骤，包括：

从样本训练集的样本中随机选取预设个数的属性信息，该预设个数小于样本中属性信息的数量。示例性的，选取载体的归属和状态，或者选取载体的状态和时间等等。优选的，训练获得每一决策树时，均需要重新随机选取属性信息。

基于选取的属性信息以及样本训练集，利用ID3算法构建获得决策树。其中，利用ID3算法构建决策树的原理是，基于属性信息的信息增益构建决策树，而在本申请中，并不需要基于每一属性信息、计算每一属性信息的增益，只需计算选取的属性的信息增益，并基于选取的属性信息构建决策树。

具体的，通过下述方式计算属性的信息增益：

样本涉密载体属性信息数据集A，N为其样本容量，设有K个分类(即有风险和无风险两个分类)，用C_k来表示，|C_i|为C_i样本个数，|C_k|之和为N，k的取值为1、2；根据属性信息P将A划分为m个子集D₁、D₂……D_m，|D_j|为D_j样本的个数，|D_j|之和为|A|，i＝1,2,……m。D_j属于C_k的样本集合为D_jk，|D_jk|为D_jk的样本个数。示例性的，根据属性信息“载体状态”将A划分为3个子集D₁、D₂、D₃，分别对应留用状态、外发状态、销毁状态。

计算每一属性信息的信息增益具体包括：

计算A的熵H(A)：

计算属性信息P的熵H(A|P)：

计算属性信息P信息增益：

g(A|P)＝H(A)-H(A|P)

基于计算获得的属性信息的信息增益采用ID3算法确定决策树的根节点以及分支节点，从而获得决策树。

优选的，根据训练获得的每一决策树的准确率为每一所述决策树分配权值，进而获得风险预测模型的步骤，包括：

利用数据集中样本训练集的补集对相应的决策树进行测试，获得所述决策树的准确率；具体的，当数据集中样本数量足够多时，每一决策树的袋外数据率约为36.8％，即对于每颗决策树，数据集中有大约36.8％的样本没有参与到该决策树的训练生成，这些样本称为决策树的OOB样本，使用这些样本对决策树进行测试，以得到决策树的决策准确率。

遍历每一决策树，获得每一决策树的准确率。

以决策树的准确率作为决策树的权值，进而获得风险预测模型。示例性的，测试获得决策树的准确率为70％，则其对应的权值为0.7。

优选的，利用风险预测模型对所述涉密载体进行检测，获得风险值及风险属性频率值的步骤，包括；

将待检测涉密载体的属性信息导入风险预测模型，获得风险预测模型中每一决策树的输出值。

根据每一决策树的输出值及权值获得风险预测模型输出的风险值。

统计风险判定结果为有风险的所有决策树中每一属性信息的出现次数，将该次数作为属性频率值，并进行降序排序，取前预设个数的属性频率值对应的属性信息作为风险属性，对应的属性频率值作为风险属性频率值。具体的，在所有决策树中，属性信息出现的次数越多，表明其导致涉密载体存在风险的概率就越大，优选的，可以选取出现次数排前5的5个属性信息作为风险属性信息，后期可以进行重点跟踪，便于快速发现涉密载体潜在风险，及时进行处理和管控，规避涉密载体信息安全隐患。

具体的，根据每一决策树的输出值及权值通过下述公式计算获得风险预测模型最终输出的风险值：

决策树的风险判定结果为有风险时，其输出值为1，其对应的风险值为：

r_i＝d_i，

考虑到，决策树的风险判定结果为无风险时，其输出值为0，,输出值与权值的乘积对应的是无风险值，因此，采用下述公式获得其对应的风险值：

r_i＝1-d_i，

风险预测模型输出的风险值r为：

其中，r_i表示决策树的风险值，d_i表示所述决策树对应的权值，i＝1、2、3...n，n表示风险预测模型中的决策树的数量。

具体的，风险预测模型输出的风险值大于0时，判定为有风险，进一步的，当小于50％时为低风险，大于50％时为高风险，可列为重点关注对象，进行实时监控，以及时发现潜在风险，并进行处理。

本发明的另一个实施例，公开了一种涉密载体风险分析系统。

由于该系统实施例与上述方法实施例的原理相同，重复之处可以参考上述方法实施例，在此不再赘述。

如图2所示，该系统包括：

模型建立模块110，用于基于获取的样本涉密载体属性信息数据集，利用权值分类结合决策树建立风险预测模型。

风险预测模块120，用于利用风险预测模型对待检测涉密载体进行检测获得风险值及风险属性频率值。

展示模块130，用于将风险值及风险属性频率值进行图形化展示。

优选的，模型建立模块110，还用于：

执行重复训练过程，以获得多个决策树，该重复训练过程包括：从所述数据集中有放回的抽取N个样本组成样本训练集；利用该样本训练集构建决策树。

优选的，风险预测模块120，还用于：

将待检测涉密载体的属性信息数值化。

将数值化后的属性信息作为特征向量里的元素，生成一个特征向量。

将特征向量导入风险预测模型，获得风险预测模型中每一决策树的输出值。

与现有技术相比，本发明实施例提供的涉密载体风险分析方法及系统，一方面，通过权值分类结合决策树建立风险预测模型，并基于涉密载体的属性信息对其风险进行预测，以有效辅助对涉密载体的管控，提高涉密载体的信息安全性。此外，基于多个决策树能够获得导致该涉密载体存在风险的主要属性信息，以便后期根据该属性信息进行重点跟踪，及时发现处理潜在风险威胁，进行源头管控，以有效预防涉密载体信息泄露而造成安全隐患，从而能够克服现有技术中无法对涉密载体有效管控以及事后管控的缺陷；另一方面，本发明通过对多个待检测涉密载体进行风险分析，能够获得每一涉密载体的风险值及风险属性频率值，进而可以在对应时间内，根据每一待检测涉密载体所属部门或单位，获得各部门的有风险的涉密载体占比，或单位内有风险的涉密载体数量变化趋势并进行图像化展示，还可以对涉密载体超期未闭环情况、各类密级载体制作变化趋势情况等进行综合评估，预判风险，提前预防、管控，为企业保密信息安全提供管理依据。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种涉密载体风险分析方法，其特征在于，包括以下步骤：

将所述风险值及风险属性频率值进行图形化展示。

2.根据权利要求1所述的涉密载体风险分析方法，其特征在于，所述基于获取的样本涉密载体属性信息数据集，利用权值分类结合决策树建立风险预测模型的步骤，包括：

3.根据权利要求2所述的涉密载体风险分析方法，其特征在于，所述利用所述样本训练集构建决策树的步骤，包括：

4.根据权利要求2所述的涉密载体风险分析方法，其特征在于，所述根据训练获得的每一决策树的准确率为每一所述决策树分配权值，进而获得风险预测模型的步骤，包括：

遍历每一所述决策树，获得每一决策树的准确率；

5.根据权利要求4所述的涉密载体风险分析方法，其特征在于，所述利用所述风险预测模型对待检测涉密载体进行检测，获得风险值及风险属性频率值的步骤，包括；

6.根据权利要求5所述的涉密载体风险分析方法，其特征在于，具体包括：

r_i＝d_i，

r_i＝1-d_i，

所述风险预测模型输出的风险值r为：

7.根据权利要求1-6任一项所述的涉密载体风险分析方法，其特征在于，所述属性信息包括，涉密载体的归属、状态或时间，所述归属包括涉密载体责任部门或责任人，所述状态包括留用、外发或销毁，所述时间包括制作时间或留存超期时间。

8.一种涉密载体风险分析系统，其特征在于，包括：

9.根据权利要求8所述的涉密载体风险分析系统，其特征在于，所述模型建立模块，还用于：

10.根据权利要求9所述的涉密载体风险分析系统，其特征在于，所述风险预测模块，还用于：