CN113141276A

CN113141276A - 一种基于知识图谱的信息安全方法

Info

Publication number: CN113141276A
Application number: CN202110461782.9A
Authority: CN
Inventors: 杨良斌; 于腊梅
Original assignee: International Relations, University of
Current assignee: International Relations, University of
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-20

Abstract

本发明公开了一种基于知识图谱的信息安全方法，涉及信息安全技术领域，包括以下步骤：进行数据信息采集，构建领域内事件描述的知识图谱来进行数据组织，其中包括文本信息和数值信息；进行数据信息存储，构成知识图谱，包括用于存储日志记录的MySQL数据库和用于为知识图谱提供存储的Neo4j；基于数据信息存储，进行获取各项指标信息。本发明获取事件描述三元组，并基于三元组将网络攻击事件为网络攻击态势检测提供新特征，并进行对各维度指标进行量化并基于有限的指标状态进行当前状态计算，提升态势检测准确率，此外可以针对需要防护的主站进行实时态势检测，提供当前实时状态展示和态势检测结果展示。

Description

一种基于知识图谱的信息安全方法

技术领域

本发明涉及信息安全技术领域，具体来说，涉及一种基于知识图谱的信息安全方法。

背景技术

随着网络技术的高速发展，网络在人们的生活和工作中得到广泛应用，并且变得不可缺失，由于网络在日常生活中的重要性，所以网络是否稳定直接关系到人们各种活动能够顺利进行。因此，网络安全维护变成了网络技术的重要组成部分，其能为用户提供安全稳定的网络环境，是基于网络开展的各类活动顺利进行的重要保障。

现有的网络安全维护基本上是通过安全服务器对各网络节点进行监测，监测到的网络故障都是以文字列表的形式进行呈现，如果某个网络节点出现网络故障，相应的文字位置上会进行提示，另外随着计算机和智能设备的不断普及，互联网已经深入大众生活的方方面面，同时安全问题也日益凸显。网络攻击态势检测可以全面掌握网络当前状态，保障网络安全。目前主要的检测模型大多针对网络自身状态进行评估，而未引入文本描述的事件发展维度考虑，使检测准确率难以满足实际的安全需求。

检索中国发明专利CN111078864 A公开了一种基于知识图谱的信息安全方法，包括：显示装置、安全服务器和多个网络节点，所述安全服务器分别与所述显示装置和所述网络节点通信连接；所述网络节点用于记录并存储所属节点的安全日志，所述安全日志包括异常记录，并用于将所述异常记录按照预设的固定时间发送给所述安全服务器；所述安全服务器用于将接收到的异常记录以知识图谱的形式呈现在显示装置上；所述知识图谱的呈现包括使用第一图像呈现节点和使用第二图像呈现节点间的关系。能够方便用户直观地知道网络上哪些网络节点存在异常代码，实现可视化操作，但其未引入文本描述的事件发展维度考虑，使检测准确率难以满足实际的安全需求。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于知识图谱的信息安全方法，通过获取事件描述三元组，并基于三元组将网络攻击事件为网络攻击态势检测提供新特征，并进行对各维度指标进行量化并基于有限的指标状态进行当前状态计算，提升态势检测准确率，此外可以针对需要防护的主站进行实时态势检测，提供当前实时状态展示和态势检测结果展示，以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的：

一种基于知识图谱的信息安全方法，包括以下步骤：

进行数据信息采集，构建领域内事件描述的知识图谱来进行数据组织，其中包括文本信息和数值信息；

进行数据信息存储，构成知识图谱，包括用于存储日志记录的MySQL数据库和用于为知识图谱提供存储的Neo4j；

基于数据信息存储，进行获取各项指标信息，并作为态势检测模型输入进行态势检测；

基于对态势检测结果进行前端绘图呈现。

进一步的，包括以下步骤：

预先获取百科己有的三元组，定义部分安全相关的实体，通过爬虫爬取该部分种子实体相关的实体和关系，并添加到种子实体中，获取实体与三元组信息；

进行爬虫爬取安全相关网站中的文字信息，从该部分信息中提取安全相关实体以及确认实体关系信息；

获取主站防护日志记录，用于对网络状态的历史行为进行分析，包含可疑访问和网络状态等信息；

基于获取实体与三元组信息和提取安全相关实体以及确认实体关系信息以及主站防护日志记录构建知识图谱。

进一步的，所述数据信息采集，还包括以下步骤：

在执行过程中发现了一个新的模式p，令n_s为现有种子概念集中可以通过p提取的概念数，令n_s为p可以提取的新概念的数量；

若满足

n_s＞δ，其中α、β和δ为阈值，保留模式p；

进一步的，包括以下步骤：

预先进行获取各项指标信息，进行态势检测，其中指标信息包括网络运行维指标、网络脆弱维指标、网络风险维指标和网络威胁维指标；所述态势检测包括要素提取、态势评估和态势预测；

基于指标信息获取对当前态势的综合评价，获取当前态势检测结果。

进一步的，所述网络运行维指标包括CPU指标、内存指标和磁盘指标。

进一步的，所述网络脆弱维指标包括对当前网络中的漏洞数目和漏洞威胁程度信息，计算脆弱性指数，表示为：一段时间内扫描到的漏洞事件来量化脆弱指标：

其中，m为漏洞个数，CVSS为漏洞评分，包括基本分数、生命周期分数和环境分数。

进一步的，所述网络风险维指标包括获取网络中遭受攻击事件造成的结果，提取当前网络中存在的攻击行为，计算网络风险，并获取网络风险指数；

对攻击事件进行人工标注，标注分为高、中和低级别，数据采集按每天的日志作为一条事件记录。

进一步的，所述网络威胁维指标包括对已发生的安全事件，获取事件的威胁程度，表示为：

其中，S_i为第i个节点的网络威胁态势值，l^k为第k类攻击事件的数量，m为当前检测的事件对每个事件的威胁态势值求和。

本发明的有益效果：

本发明基于知识图谱的信息安全方法，通过进行数据信息采集，构建领域内事件描述的知识图谱来进行数据组织，并进行数据信息存储，构成知识图谱，基于数据信息存储，进行获取各项指标信息，并作为态势检测模型输入进行态势检测，进行对态势检测结果进行前端绘图呈现，实现获取事件描述三元组，并基于三元组将网络攻击事件为网络攻击态势检测提供新特征，并进行对各维度指标进行量化并基于有限的指标状态进行当前状态计算，提升态势检测准确率，此外可以针对需要防护的主站进行实时态势检测，提供当前实时状态展示和态势检测结果展示。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于知识图谱的信息安全方法的流程示意图一；

图2是根据本发明实施例的一种基于知识图谱的信息安全方法的流程示意图二；

图3是根据本发明实施例的一种基于知识图谱的信息安全方法的流程示意图三；

图4是根据本发明实施例的一种基于知识图谱的信息安全方法的流程示意图四；

图5是根据本发明实施例的一种基于知识图谱的信息安全方法的流程示意图五；

图6是根据本发明实施例的一种基于知识图谱的信息安全方法的流程示意图六。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种基于知识图谱的信息安全方法。

如图1-图6所示，根据本发明实施例的基于知识图谱的信息安全方法，包括以下步骤：

进行数据信息存储，构成知识图谱，包括用于存储日志记录的MySQL数据库和用于为知识图谱提供存储的Neo4j；其中日志记录将会被完整的存储在MySQL数据库中，当需要作为算法输入的时候会针对性地读出需要的部分并进行数据处理；对于得到的原文件，通过实体提取和关系提取后，将只把实体和关系存入Neo4j数据库；

基于对态势检测结果进行前端绘图呈现。

其中，包括以下步骤：

其中，数据信息采集，还包括以下步骤：

若满足

n_s＞δ，其中α、β和δ为阈值，保留模式p；在a取0.6，B取0.8，6取2的时候效果最好；

其中，态势检测模型，包括以下步骤：

预先进行获取各项指标信息，进行态势检测，其中指标信息包括网络运行维指标、网络脆弱维指标、网络风险维指标和网络威胁维指标；态势检测包括要素提取、态势评估和态势预测，且要素提取从大量的多源异构数据中获取关键信息，通过预定义的指标计算方法计算各指标参数；态势评估通过己有的各项指标结果对当前状态形成数学描述，以计算机可理解的方式进行呈现；态势预测的结果是当前状态与下一状态转换的临界值，在态势理解的基础上进行推理预测，用已有的历史数据进行预测提前把握态势发展趋势；

基于指标信息获取对当前态势的综合评价，获取当前态势检测结果，其检测结果分为极危、高危、中危、低危、无风险五个等级。

其中，网络运行维指标包括CPU指标、内存指标和磁盘指标。

其中，网络脆弱维指标包括对当前网络中的漏洞数目和漏洞威胁程度信息，计算脆弱性指数，表示为：一段时间内扫描到的漏洞事件来量化脆弱指标：

其中，网络风险维指标包括获取网络中遭受攻击事件造成的结果，提取当前网络中存在的攻击行为，计算网络风险，并获取网络风险指数；

其中，网络威胁维指标包括对已发生的安全事件，获取事件的威胁程度，表示为：

借助于上述方案，通过进行数据信息采集，构建领域内事件描述的知识图谱来进行数据组织，并进行数据信息存储，构成知识图谱，基于数据信息存储，进行获取各项指标信息，并作为态势检测模型输入进行态势检测，进行对态势检测结果进行前端绘图呈现，实现获取事件描述三元组，并基于三元组将网络攻击事件为网络攻击态势检测提供新特征，并进行对各维度指标进行量化并基于有限的指标状态进行当前状态计算，提升态势检测准确率，此外可以针对需要防护的主站进行实时态势检测，提供当前实时状态展示和态势检测结果展示。

另外，具体的，其态势检测包括要素提取、态势评估和态势预测，其对于要素提取，由于网络上的信息纷繁复杂，需要对各种历史数据分门别类的处理。数据组织方面，由于同时涉及数值数据和非数值数据，存储应分为两个部分。数值类型的数据存储在MySQL数据库中，文本类型在经过处理后构建知识图谱，采用Neo4j数据库进行存储，以便文本数据用于之后推理。对于态势理解，由于态势理解是对当前所有数据状况的综合理解，所以需要综合考虑每种数据的应用方法。数据融合是一个核心问题，需要对不同的数据建立一整套从数据处理，数据存储，推理预测到前端展示的流程。不同的数据有不同的组织架构，尽可能做到每个模块相互没有干扰，保证数据的一致性要求，同时减少数据库在读写方面的损耗。对于态势预测，需要对网络中各个方面的信息进行整合预测。从数据结构上说，原数据包含数值数据和非数值数据；从数据状态上说，原数据包含当前数据、历史数据和预测数据。为了更好地将数据组织起来，本文采用知识图谱对网络攻击事件从时间、热点描述、网络状态等方面进行建模。将各个状态的数据融合后通过状态转移方法得出当前状态评价，同时添加了针对态势检测中的重要指标下一时刻变化趋势的预测。由于数据是不断更新的，系统中采用的神经网络模型也需要根据新的数据调整参数，从而不断进行自我调优，保证在使用过程中始终保持较高的预测水平。

如图2所示，数据包含文本和数值两个类型，需要构建领域内事件描述的知识图谱来进行数据组织。在构建过程中数据来源主要有两个部分，一部分来自百科已有的三元组。首先定义一部分安全相关的实体，通过爬虫爬取这一部分种子实体相关的实体和关系，并添加到种子实体中，从而得到大量的实体与三元组。由于百科数据覆盖面不够全面且更新较慢，所以还有一部分需要从文本中获取。通过爬虫爬取安全相关网站中的文字信息，从这部分信息中提取安全相关实体以及确认实体关系。两种方案形成的种子实体又可以相互补充，扩大知识图谱。另一个部分的数据是主站防护日志记录，这一部分数据主要用于对网络状态的历史行为进行分析，包含可疑访问和网络状态等信息。

此外，如图3所示，其数据的存储同样分为两个部分，分别用于存储日志记录的MySQL数据库和用于为知识图谱提供存储的Neo4j。日志记录将会被完整的存储在MySQL数据库中，当需要作为算法输入的时候会针对性地读出需要的部分并进行数据处理。考虑到系统对实时响应的要求，部分需要多次访问的字典将在系统运行时一次性读入缓存。文本部分数据由于数据量巨大，将不对处理后的原文件进行存储。对于得到的原文件，通过实体提取和关系提取后，将只把实体和关系存入Neo4j数据库，构成知识图谱。

另外，如图4-图5所示，对于上述态势评估模型来说，其需要获取各项网络参数，根据已有指标体系计算结果，在计算网络维度指标的基础上，通过网络热点发展引入事件历史信息，解决传统态势检测方案无法考虑事件发展信息的问题。通过知识图谱定位历史事件，将历史事件的已知态势或者下一态势作为事件发展维指标来获得事件发展维度特征。同时对于关键词较少的事件，在事件描述小于阈值的时候进行描述扩充。

另外，如图6所示，将计算得到的网络状态指标和由文本信息定位实体得到的事件发展为指标一起构成输入向量，通过隐马尔科夫模型进行态势检测。根据隐马尔科夫模型训练好的转移矩阵，计算当前态势检测结果。检测结果分为极危、高危、中危、低危、无风险五个等级。

此外，具体的，数据的一个生命周期包括以下步骤：

中心控制模块启动调度，向数据采集模块请求一次新的数据；

数据采集模块进行数据采集，文档以文件的形式存储，格式化数据以MySQL数据库形式存储；

数据处理与存储模块对收到的数据进行格式化处理，对文档提取关键信息，对格式化数据进行预处理生成新表，以满足后续算法的数据要求；

数据扩充功能根据算法要求扩充数据、提取态势特征；

控制中心模块调度态势评估模块，计算指标信息；

控制中心模块调度态势检测模块采用基于知识图谱的态势检测方案对态势进行检测。执行完毕后响应控制中心，态势检测结束；

态势检测模块得到结果后，响应控制中心，将数据返回到前台进行显示，同时检测结果存入结果表作为数据备份。

完成一次循环，启动定时器。定时器结束后重新开始第一步，进行下一次交互。

此外，预先进行获取各项指标信息，进行态势检测，其中指标信息包括网络运行维指标、网络脆弱维指标、网络风险维指标和网络威胁维指标，具体的如下所示，

网络运行维指标，如表1所示：

表1运维指标评价表

借助于上述表1所示，其搜集需要保护的主站服务器运行情况，根据评价标准进行评价，将“差”记为0分，“良”记为1分，“优”记为2分，对各部分网络要素评价计分求和得到最终评价结果。

另外，网络脆弱维指标：包括对当前网络中的漏洞数目和漏洞威胁程度信息，计算脆弱性指数，表示为：一段时间内扫描到的漏洞事件来量化脆弱指标：

其中，m为漏洞个数，CVSS为漏洞评分，包括基本分数、生命周期分数和环境分数，如表2所示。

表2基本分数评价标准表

另外，如表2所示，进行计算，获取基本评价分数，表示为：Basic score＝10×AVXAC×Au×((Co×0.33)+(In×0.33)+(Av×0.33))，得到的基本分数按四舍五入取整，得到基本评价分数。

此外，生命周期评价主要与时间因素相关，包含可利用性、修复措施和确认程度。其评价标准如表3所示，其中缺省值为评分最低值。

表3生命周期评价标准

借助于表3所示，获取Life cycle＝Ava×RM×Con×Basic score。计算所得的Life cycle值进行四舍五入取整。

另外，环境评价结合了漏洞与当前环境的关系，其评价标准如表4所示，其中缺省值为评分最低值。

表4环境评价标准表

借助于上述表4，获取Environment score＝[Life cycle+(10-Basic score)×Harm]×Dis。对于环境评价结果，进行四舍五入取整。计算结果评分在0-3.9分是低危漏洞，4-6.9分是中危漏洞，7～10分是高危漏洞。对于当前捕获的漏洞信息进行求和，以前30天的数据作为标准来量化脆弱维指标。

另外，网络风险维指标包括获取网络中遭受攻击事件造成的结果，提取当前网络中存在的攻击行为，计算网络风险，并获取网络风险指数；

此外，网络威胁维指标包括对已发生的安全事件，获取事件的威胁程度，表示为：

综上，借助于本发明的上述技术方案，通过进行数据信息采集，构建领域内事件描述的知识图谱来进行数据组织，并进行数据信息存储，构成知识图谱，基于数据信息存储，进行获取各项指标信息，并作为态势检测模型输入进行态势检测，进行对态势检测结果进行前端绘图呈现，实现获取事件描述三元组，并基于三元组将网络攻击事件为网络攻击态势检测提供新特征，并进行对各维度指标进行量化并基于有限的指标状态进行当前状态计算，提升态势检测准确率，此外可以针对需要防护的主站进行实时态势检测，提供当前实时状态展示和态势检测结果展示。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的信息安全方法，其特征在于，包括以下步骤：

基于对态势检测结果进行前端绘图呈现。

2.根据权利要求1所述的基于知识图谱的信息安全方法，其特征在于，所述数据信息采集，包括以下步骤：

3.根据权利要求2所述的基于知识图谱的信息安全方法，其特征在于，所述数据信息采集，还包括以下步骤：

若满足

n_s＞δ，其中α、β和δ为阈值，保留模式p。

4.根据权利要求3所述的基于知识图谱的信息安全方法，其特征在于，所述态势检测模型，包括以下步骤：

5.根据权利要求4所述的基于知识图谱的信息安全方法，其特征在于，所述网络运行维指标包括CPU指标、内存指标和磁盘指标。

6.根据权利要求4所述的基于知识图谱的信息安全方法，其特征在于，所述网络脆弱维指标包括对当前网络中的漏洞数目和漏洞威胁程度信息，计算脆弱性指数，表示为：一段时间内扫描到的漏洞事件来量化脆弱指标：

7.根据权利要求4所述的基于知识图谱的信息安全方法，其特征在于，所述网络风险维指标包括获取网络中遭受攻击事件造成的结果，提取当前网络中存在的攻击行为，计算网络风险，并获取网络风险指数；

8.根据权利要求4所述的基于知识图谱的信息安全方法，其特征在于，所述网络威胁维指标包括对已发生的安全事件，获取事件的威胁程度，表示为：