CN115186015B

CN115186015B - 一种网络安全知识图谱构建方法及系统

Info

Publication number: CN115186015B
Application number: CN202211110480.8A
Authority: CN
Inventors: 郑伟发; 谢文亮; 蔡梓涛; 程培宇
Original assignee: Guangdong University of Business Studies
Current assignee: Guangdong University of Business Studies
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-11-25
Anticipated expiration: 2042-09-13
Also published as: CN115186015A

Abstract

本发明提供网络安全知识图谱构建方法及系统，应用于网络安全领域，包括：构建网络安全领域本体模型，所述模型定义为CDO模型，其中CDO模型包括：网络安全领域类的集合、实体集合和类与类之间关系的集合；从互联网中获取结构化数据、半结构化数据和非结构化文本数据；从结构化数据、半结构化数据和非结构化文本数据进行知识抽取得到网络安全实体、属性及关系；将网络安全实体、属性和关系基于CDO模型存储到图数据库，完成网络安全知识图谱的构建。通过准确描述网络安全事件的事理逻辑关系，考虑漏洞、威胁等多维度知识，描述网络安全事件的演化规律和模式，结合知识抽取技术构建知识图谱，提高网络安全分析的准确率和智能化水平。

Description

一种网络安全知识图谱构建方法及系统

技术领域

本发明涉及网络安全领域，更具体地，涉及一种网络安全知识图谱构建方法及系统。

背景技术

知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互关系。知识图谱通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论，为学科研究提供切实的、有价值的参考。

网络安全知识图谱用于描述客观网络空间中的概念、实体、事件及其关系，是知识图谱在网络安全领域的应用。现有技术对网络安全知识图谱构建的方法和应用，大都注重实体概念及关系组织管理，缺乏对概念之间逻辑关系和威胁本质的考虑，缺少攻击事件动态演化、预测和推理，而且由于知识来源不同，有些侧重威胁情报、有些侧重漏洞分析，所建立的知识图谱具有以下局限性：无法多维度地考虑到漏洞和威胁，无法对漏洞和威胁进行综合分析；没有考虑到网络安全事件的事理逻辑关系；无法对网络安全事件的演化规律和模式进行准确描述。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷，提供一种网络安全知识图谱构建方法及系统。用于解决现有技术缺乏准确描述网络安全事件事理逻辑关系的知识图谱，缺乏科学的网络安全知识图谱以及应用系统构建方法的问题。

本发明采取的技术方案是，构建网络安全领域本体模型，所述模型定义为CDO模型，CDO=(C,I,R)，其中CDO表示网络安全领域本体，

C={c ₁ ，c ₂ ，…c _x …,c _m }表示网络安全领域类的集合，m表示网络安全领域类集合的类数量，c _x为某种网络安全领域类；

I={i ₁ ，i ₂ ，…i _x …,i _n }表示实体集合，n表示实体数量，i _x表示某个网络安全领域类的实体；R={r ₁ ，r ₂ ，…r _x …,r _l }表示类与类之间关系的集合，l表示网络安全领域类与类的关系数量，r _x表示某一种类与类的关系；

从互联网中获取结构化数据、半结构化数据和非结构化文本数据；

从结构化数据、半结构化数据和非结构化文本数据进行知识抽取得到网络安全实体、属性及关系；

将网络安全实体、属性和关系基于CDO模型存储到图数据库中，完成网络安全知识图谱的构建。

其中，网络安全领域类c _x用于表述网络安全领域的类，从逻辑上定义了网络安全领域的实体概念，i _x可以为漏洞类中的某一具体漏洞，用于对网络安全领域类进行具体的描述，r _x可以为攻击类与漏洞类的利用关系，用于描述两个以上网络安全领域的重要主体之间的关系。本发明的CDO模型考虑了漏洞、威胁等多维度知识，同时建立了网络安全事件顺承、因果、条件和上下位等事理逻辑关系，可以描述网络安全事件的演化规律和模式，可以应用于攻击预测、威胁建模、网络空间测绘等网络安全智能运用，支撑企事业单位智能安全运用，达到提高网络安全分析的准确率和智能化水平的技术效果。

进一步，所述半结构化数据包括事件数据；所述事件数据包括安全事件告警信息，其通过OSSIM 平台从不同的安全设备上获取。

企业网络通常会安装部署IDS、NF、日志审计等网络安全相关设备，这些设备会产生大量的安全事件告警，这些事件隐藏很重要的安全信息，然而由于多源安全事件的异构性，不同厂商提供的告警信息格式各不相同，而且很多原生事件不具有很好的可读性。本发明通过OSSIM（Open Source Security Information Management）即开源安全信息管理平台收集不同安全设备的告警信息，并提交给知识抽取模块进行知识抽取，OSSIM是一个非常流行和完整的开源安全架构，可以用于集成和关联各种产品提供的事件信息。可以通过Python编写爬虫程序，从漏洞库获取html页面，并对其进行解析，获取漏洞知识。

进一步，网络安全领域类的集合C包括与网络资产相关的类、与脆弱性相关的类、与攻击相关的类、与观测指标相关的类和与情报相关的类；

所述与网络资产相关的类的集合表示为Class(Assets)={Host, NetworkEquipment, Safety Equipment, Hardware, OS, Software, Network, IP, Port}；

其中，Host表示主机类，Network Equipment表示网络设备类，Safety Equipment表示安全设备类，Hardware表示硬件类，OS表示操作系统类，Software表示软件类，Network表示互联网类，IP表示IP地址类，Port表示端口类；

所述与脆弱性相关的类的集合表示为Class(Fragility)={Vulnerability,Weakness}；

其中，Vulnerability表示漏洞类，Weakness表示弱点类；

所述与攻击相关的类的集合表示为Class(Attack)={Attacker, Mean, Tool,Malware, Consequence}；

其中，Attacker表示攻击者类, Mean表示攻击方法类, Tool表示攻击工具类,Malware表示恶意软件类, Consequence表示攻击结果类；

所述与情报相关的类的集合表示为Class(Intelligence)={Event, Threatintelligence}

其中，Event表示安全事件类，Threat intelligence表示威胁情报类；

从半结构化数据中进行知识抽取得到网络安全实体、属性及关系，包括从事件数据中进行知识抽取得到网络安全实体、属性及关系；

所述从事件数据中进行知识抽取得到网络安全实体、属性及关系，具体包括：

设所述CDO模型中主机类集合为H={h ₁ ，h ₂ ，h ₃ ,…h _i …,h _a }，其中h _i表示第i台主机，a表示主机数量；

每个安全事件告警信息含有源IP、源端口、目的IP、目的端口、事件、漏洞类和时间；

提取每台主机发生的安全事件对应的安全事件告警信息，得到每台主机预处理后的安全事件流为E={Emsg ₁ ，Emsg ₂ ，Emsg ₃ ,…Emsg _i …,Emsg _b }，Emsg _i表示安全事件，b表示有b个安全事件；

对于安全事件Emsg _i，通过在图数据库中检索该安全事件的目的IP 对应的主机h _j是否存在；如果不存在，则丢弃该安全事件；否则从图数据库中检索该安全事件的目标 IP对应的主机h _j；

从图数据库中获取所述主机h _j存在的漏洞属性集，记为Vuls _Host；

将安全事件Emsg _i中的漏洞类赋值给集合Vuls _Event；

如果Vuls _Event为空则构建事件实体，根据安全事件Emsg _i中的信息生成该事件实体的属性信息写入图数据库；

如果Vuls _Event不为空，则判断Vuls _Event∩Vuls _Host是否是空集

，若是则标记所述安全事件为虚假警报并过滤；若否则构建事件实体，根据安全事件Emsg _i中的信息生成该事件实体的属性信息写入图数据库。

网络安全告警事件中存在大量虚假警报，构建网络安全知识图谱时需要判断其真实性，本发明通过查看抽取的网络安全实体、属性及关系是否存在于图数据库中，判断是否为虚假警报并过滤，否则在图数据库中构建网络安全事件实体。进而可以过滤虚假警报，构建具有可靠性的网络安全知识图谱。

进一步，从非结构化文本数据进行知识抽取得到网络安全实体、属性及关系，具体包括：

利用非结构化文本数据抽取模型对非结构化文本数据进处理得到自动化标注数据；

根据得到的自动化标注数据抽取得到对应的网络安全实体、属性及关系。

非结构化文本数据相对于结构化文本数据和半结构化文本数据来说更难以直接应用，因此需要通过非结构化文本数据抽取模型进行自动化标注，即自动抽取。可以先采用Scrapy框架从互联网安全威胁情报网站获取安全威胁情报的非结构化数据，并对数据进行遍历过滤清洗，将分散的文本文件进行整合，随后结合深度学习技术，利用非结构化文本数据抽取模型进行处理，得到对应的网络安全实体、属性及关系。

进一步，所述非结构化文本数据抽取模型的训练方法包括：

预定义应用于网络安全的文本标签集，文本标签集中包括若干个标签；

获取非结构化文本数据样本形成以句子为单位的语料数据样本集；

基于文本标签集对语料数据样本集进行人工标注得到对应的人工标注数据集；

将语料数据样本集和人工标注数据集进行预处理分别转化成数字矩阵集；

将语料数据样本集和人工标注数据集对应的数字矩阵集均对应地分为训练集和测试集；

将训练集输入到利用神经网络构建的非结构化文本数据抽取模型中进行训练，得到收敛的非结构化文本数据抽取模型，并利用测试集对非结构化文本数据抽取模型进行验证。

深度学习的非结构化文本数据抽取模型需要进行训练学习，才能对非结构化文本数据进行高效、精准的自动抽取，因此本发明提供了所述非结构化文本数据抽取模型的训练方法。形成以句子为单位的语料数据样本集，以便所述非结构化文本数据抽取模型进行抽取，提高处理的效率，降低算力消耗。基于文本标签集对语料数据样本集进行人工标注得到对应的人工标注数据集；根据抽取的需要，对语料数据样本集进行人工标注，进而让所述非结构化文本数据抽取模型进行学习，其学习人工标注的方法，收敛后可以进行自动标注。

通过将将语料数据样本集和人工标注数据集进行预处理分别转化成数字矩阵集，即有利于计算机进行处理的格式，预处理还可以对数据进行加强，提高训练出来的非结构化文本数据抽取模型的泛化能力和鲁棒性。

将语料数据样本集和人工标注数据集对应的数据矩阵集均对应地分为训练集和测试集，划分后的数据集分别用于进行训练和测试，训练出收敛的非结构化文本数据抽取模型后进行测试，根据测试结果，可以对所述收敛的非结构化文本数据抽取模型进行优化，调整，保证训练出来的非结构化文本数据抽取模型的可靠性。

进一步，所述文本标签集表示为CyberTag ，

CyberTag = { O , BS1 , IS1 , ES1 , SS1 , BS2 , IS2 , ES2 , SS2 , has , exploit , belong , threat }，

O , BS1 , IS1 , ES1 , SS1 , BS2 , IS2 , ES2 , SS2 , has , exploit , belong , threat均为文本标签集中的标签；

其中文本标签集中O代表威胁情报类以外的其他安全领域类中的实体的文本字符，BS代表威胁情报类中的实体属性文本字符的开始位置，IS代表威胁情报类中的实体属性文本字符的中间位置，ES代表威胁情报类中的实体属性文本字符的结尾位置，SS代表单个文本字符的威胁情报类中的实体属性，所述文本字符为汉字或英文单词；威胁情报类中的实体属性位置由数字“1”和“2”表示， 1表示主体属性，2表示客体属性；has、exploit、 belong和threat为威胁情报类中实体的关系属性的值，has代表主体与客体的关系是拥有或存在；exploit代表主体与客体的关系是利用，belong代表主体与客体的关系是属于，threat代表主体与客体的关系是威胁和攻击；

所述基于文本标签集对语料数据样本集进行人工标注得到对应的人工标注数据集，具体包括：

根据文本标签集中的标签判定语料数据样本集中的每个句子的汉字和英语单词所对应的标签，得到每个句子对应的标注结果；

根据每个句子对应的标注结果，每个句子中的汉字和英语单词按照文本标签集中标签的顺序进行存储生成标签数组，其中句子中没有出现的标签则在标签数组中所述标签对应的位置填上预设符号，文本标签集中的标签O对应的汉字和/或英语单词在标签数组中标签O对应的位置填上所述预设符号；

语料数据样本集中句子对应的标签数组组成人工标注数据集。

本发明提供了一种具体的文本标签集标注方法，用O , BS1 , IS1 , ES1 , SS1 , BS2 , IS2 , ES2 , SS2 , has , exploit , belong , threat等标签来标注非结构化文本数据，从语义逻辑上定义了非结构化文本数据的组成部分，进而让非结构化文本数据抽取模型以该语义逻辑对句子进行自动标注，达到高效、准确地对网络安全知识进行抽取的技术效果。

进一步，所述将语料数据样本集和人工标注数据集进行预处理分别转化成数字矩阵集，具体包括：

初始化步骤：

设置语料数据样本集的最大句子长度SeqLength=0，设置句子列表DataList、 LabelList、AttMaskList、TokenTypeList均为空序列；

根据文本标签集预定义对应的标签字典LabDic，所述标签字典LabDic将文本标签集中的每个标签映射成对应的数字；

读取步骤：

读取语料数据样本集中的一个句子和所述一个句子在人工标注数据集中对应的标注数据，设读取的句子Sen=w ₁ w ₂ w ₃ …w _i …w _d，w _i表示句子中的汉字或英语单词或符号，d表示句子中汉字、英语单词、符号的总数量，设句子对应的标注数据Lab=l ₁ l ₂ l ₃ …l _i …l _d，l _i表示标签；

数字化步骤：

对句子Sen，在句子开始和结尾处增加开始符号“[CLS]”和结尾符号“[SEP]”，得到新的句子Sen’=”[CLS]w ₁ w ₂ w ₃ …w _i …w _d[SEP]”；

利用中文词库字典中汉字、英语单词、符号对应的ID，对句子Sen’按逐个汉字、英语单词、符号进行分割，将分割后的汉字、英语单词、符号转换成中文词库字典中的ID，得到数组SenIDS=[wid ₁ ,wid ₂ ,wid ₃ ,…wid _i ,…,wid _K ] ,K是句子分割后汉字、英语单词、符号的总数量，wid _K表示中文词库字典中的ID值；

读取所述句子Sen对应的标注数据Lab，对标注数据Lab按逐个标签进行分割，将分割后的标签匹配标签字典LabDic中的数字，得到数组LabIDS=[lid ₁ ,lid ₂ ,lid ₃ ,…, lid _i ,…,lid _k ]；

矩阵组建步骤：

创建两个长度为K的数组AttMask和TokenType，数组AttMask元素为1，数组TokenType元素为0；

将SenIDS插入DataList，将LabIDS插入LabelList，将AttMask插入AttMaskList，将TokenType插入TokenTypeList；

判断所述一个句子的总数量K是否大于最大句子长度SeqLength，如果是则设置更新SeqLength=K，如果不是则不更新SeqLength；

判断步骤：判断是否完成语料数据样本集的最后一个句子的处理，若不是则对下一个句子循环执行读取步骤、数字化步骤和矩阵组建步骤，若是则执行数据补齐步骤；

数据补齐步骤：

遍历SenIDS，如果SenIDS长度小于SeqLength，则在SenIDS尾部用整数‘0’补齐，使得SenIDS的长度等于SeqLength，对应的LabIDS用‘-1’补齐，对应的AttMask补‘0’，对应的TokenType补‘-1’，使得长度均等于SeqLength。

通过初始化步骤，定义空的句子列表DataList、LabelList、AttMaskList、TokenTypeList，用于存储数据，将语料数据样本集的最大句子长度设置为SeqLength=0，为后续预处理步骤做准备，根据文本标签集预定义对应的标签字典LabDic，所述标签字典LabDic将文本标签集中的每个标签映射成对应的数字。

通过读取步骤，将读取的句子定义为Sen=w ₁ w ₂ w ₃ …w _i …w _d将句子对应的标注数据定义为Lab=l ₁ l ₂ l ₃ …l _i …l _d，读取出语料数据样本集CyberData.txt中的一个句子和所述一个句子在人工标注数据集中对应的标注数据，有利于后续进行数字化。

数字化步骤首先为读取的句子Sen增加开始符号的结束符号，让非结构化文本数据抽取模型可以识别句子的开头和结尾。利用中文词字典中汉字、英语单词、符号对应的ID，对句子Sen’按逐个汉字、英语单词、符号进行分割，将分割后的汉字、英语单词、符号转换成中文词库字典中的ID，得到数组SenIDS=[wid ₁ ,wid ₂ ,wid ₃ ,…wid _i ,…,wid _K ] ,K是分割后字符的数量，wid _K表示中文词库字典中的ID值；通过循环将句子分割，并转化为词库字典中的ID值。

矩阵组建步骤创建了两个长度为K的数组AttMask和TokenType，数组AttMask元素为1，数组TokenType元素为0，为矩阵数组定义基础的元素，将SenIDS插入DataList，将LabIDS插入LabelList，将AttMask插入AttMaskList，将TokenType插入TokenTypeList，完成数组的组建，通过判断句子的字符数量更新SeqLength；通过判断步骤，判断是否进行数据补齐，进而对操作进行循环，完成数组的组建。

进一步，利用非结构化文本数据抽取模型对非结构化文本数据进处理得到自动化标注数据，具体包括：

将所述非结构化文本数据进行处理形成以句子为单位的语料数据；

基于文本标签集对所述语料数据进行人工标注得到对应的人工标注数据；

将所述语料数据和对应的人工标注数据进行预处理分别转化成对应的数字矩阵；

将转化得到的数字矩阵输入到利用神经网络构建的非结构化文本数据抽取模型中进行训练，得到收敛的非结构化数据抽取模型；

将待抽取的非结构化文本输入到所述的收敛的非结构化文本数据抽取模型中，输出得到所述非结构化文本数据对应的自动化标注数据。

通过非结构化文本数据抽取模型对非结构化文本数据进处理得到自动化标注数据，即得到非结构化文本数据抽取的结果，进而可以对网络安全知识图谱进行构建。

进一步，所述根据得到的自动化标注数据抽取得到对应的网络安全实体、属性及关系，具体包括：

从所述自动化标注数据中的第1位置开始进行遍历，当满足以下两个条件之一时提取字符作为威胁情报类实体的主体属性；

①查找所述自动化标注数据中的标签，按顺序提取标签为“BS1”“IS1”“ES1”对应的汉字或英语单词，并进行拼接，作为威胁情报类中实体的主体属性；

②查找所述自动化标注数据中的标签，提取标签为“SS1”对应的汉字或英语单词作为威胁情报类中实体的主体属性；

对于每一个提取完毕的主体属性，在对应的所述自动化标注数据中查找可配对客体属性，其中可配对的客体属性满足以下两个条件之一：

③查找对应的所述自动化标注数据中的标签，符合“BS2”为头部、“ES2”为尾部，且“BS2”和“ES2”之间的每一个字符的标签均为“IS2”，按顺序提取标签为“BS2”“IS2”“ES2”对应的汉字或英语单词，并进行拼接，作为威胁情报类中实体的客体属性；

④查找对应的所述自动化标注数据的标签，提取标签为“SS2”的汉字或英语单词，作为威胁情报类中实体的客体属性；

在对应的所述自动化标注数据中，将主体属性和客体属性之间的标签为has或exploit或belong或threat所对应的字符提取为威胁情报类中实体的关系属性；

将提取的主体属性、客体属性、关系属性、所述威胁情报类中实体的来源以及标注时间写入intelligence.csv文件；

完成所有非结构化数据的提取后，将intelligence.csv文件导入图数据库。

得到非结构化文本数据抽取模型的自动标注数据后，可以通过本发明的技术方案将非结构化数据写入intelligence.csv文件并导入图数据库中，进而完成网络安全知识图谱的构建。

与现有技术相比，本发明的有益效果为：

（1）构建的知识图谱考虑了漏洞、威胁等多维度知识，同时建立了网络安全事件顺承、因果、条件和上下位等事理逻辑关系，描述了网络安全事件的演化规律和模式。

（2）结合了深度学习的技术，自动化抽取非结构化文本数据，构建网络安全知识图谱。

（3）可以过滤虚假警报，构建具有可靠性的网络安全知识图谱。

附图说明

图1为本发明实施的方法流程图。

图2为本发明的网络安全本体类及其关系的示意图。

图3为本发明的攻击者类的属性描述示意图。

图4为本发明的与网络资产相关的类的通用属性描述示意图。

图5为本发明的攻击方法类的属性描述示意图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

如图1所示，本实施例提供一种网络安全知识图谱构建方法，具体为：

S1、构建网络安全领域本体模型；

S2、从互联网中获取结构化数据、半结构化数据和非结构化文本数据；

S3、从结构化数据、半结构化数据和非结构化文本数据进行知识抽取得到网络安全实体、属性及关系;

S4、将网络安全实体、属性和关系基于CDO模型存储到图数据库中，完成网络安全知识图谱的构建。

所述模型定义为CDO模型，CDO=(C,I,R)，其中CDO表示网络安全领域本体，

其中，网络安全领域类c _x可以为攻击类、弱点类、漏洞类等，用于表述网络安全领域的类，从逻辑上定义了网络安全领域的实体概念，i _x可以为漏洞类中的某一具体漏洞，用于对网络安全领域类进行具体的描述，r _x可以为攻击类与漏洞类的利用关系，用于描述两个以上网络安全领域的重要主体之间的关系。本发明的CDO模型考虑了漏洞、威胁等多维度知识，同时建立了网络安全事件顺承、因果、条件和上下位等事理逻辑关系，可以描述网络安全事件的演化规律和模式，可以应用于攻击预测、威胁建模、网络空间测绘等网络安全智能运用，支撑企事业单位智能安全运用，达到提高网络安全分析的准确率和智能化水平的技术效果。

优选地，所述半结构化数据包括事件数据；所述事件数据包括安全事件告警信息，其通过OSSIM 平台从不同的安全设备上获取。

优选地，网络安全领域类的集合C包括与网络资产相关的类、与脆弱性相关的类、与攻击相关的类、与观测指标相关的类和与情报相关的类；

其中，Vulnerability表示漏洞类，Weakness表示弱点类；

其中，Attacker表示攻击者类，Mean表示攻击方法类，Tool表示攻击工具类，Malware表示恶意软件类， Consequence表示攻击结果类；

所述与情报相关的类的集合表示为Class(Intelligence)={Event, Threatintelligence}，

设所述CDO模型中主机类集合为H={h ₁ ，h ₂ ，h ₃ ,…h _i …,h _a }，其中h _i表示第i台主机，a表示主机数量；

对于安全事件Emsg _i，通过在图数据库中检索该安全事件的目的IP 对应的主机h _j是否存在；如果不存在，则丢弃该安全事件；否则从图数据库中检索该安全事件的目的 IP对应的主机h _j；

从图数据库中获取所述主机h _j存在的漏洞类，记为Vuls _Host；

将安全事件Emsg _i中的漏洞类赋值给集合Vuls _Event；

优选地，从非结构化文本数据进行知识抽取得到网络安全实体、属性及关系，具体包括：

优选地，所述非结构化文本数据抽取模型的训练方法包括：

优选地，所述实体分为主体和客体；

所述文本标签集表示为CyberTag，

O , BS1 , IS1 , ES1 , SS1 , BS2 , IS2 , ES2 , SS2 , has , exploit , belong , threat 均为文本标签集中的标签；

优选地，所述将语料数据样本集和人工标注数据集进行预处理分别转化成数字矩阵集，具体包括：

初始化步骤：

设置语料数据样本集的最大句子长度SeqLength=0，设置句子列表DataList、LabelList、AttMaskList、TokenTypeList均为空序列；

读取步骤：

读取语料数据样本集CyberData.txt中的一个句子和所述一个句子在人工标注数据集中对应的标注数据，设读取的句子Sen=w ₁ w ₂ w ₃ …w _i …w _d，w _i表示句子中的汉字或英语单词或符号，d表示句子中汉字、英语单词、符号的总数量，设句子对应的标注数据Lab= l ₁ l ₂ l ₃ …l _i …l _d，l _i表示标签；

数字化步骤：

利用中文词字典中汉字、英语单词、符号对应的ID，对句子Sen’按逐个汉字、英语单词、符号进行分割，将分割后的汉字、英语单词、符号转换成中文词库字典中的ID，得到数组SenIDS=[wid ₁ ,wid ₂ ,wid ₃ ,…wid _i ,…,wid _K ]，K是句子分割后汉字、英语单词、符号的总数量，wid _K表示中文词库字典中的ID值；

矩阵组建步骤：

判断所述一个句子的总数量K是否大于最大句子长度SeqLength，如果是则设置更新SeqLength=K，如果不是则不更新SeqLength；

数据补齐步骤：

通过初始化步骤，定义空的句子列表DataList、LabelList、AttMaskList、TokenTypeList，用于存储数据，将语料数据样本集的最大句子长度设置为SeqLength=0，为后续预处理步骤做准备，根据文本标签集预定义对应的标签字典LabDic，所述标签字典LabDic将文本标签集中的每个标签映射成对应的数字。

矩阵组建步骤，创建两个长度为K的数组AttMask和TokenType，数组AttMask元素为1，数组TokenType元素为0，为矩阵数组定义基础的元素，将SenIDS插入DataList，将LabIDS插入LabelList，将AttMask插入AttMaskList_List，将TokenType插入TokenTypeList，完成数组的组建，通过判断句子的字符数量更新SeqLength；通过判断步骤，判断是否进行数据补齐，进而对操作进行循环，完成数组的组建，通过判断句子的字符数量更新SeqLength；通过判断步骤，判断是否进行数据补齐，进而对操作进行循环，完成数组的组建。

优选地，利用非结构化文本数据抽取模型对非结构化文本数据进处理得到自动化标注数据，所述自动化标注数据，具体包括：

将转化得到的数字矩阵输入到所述的收敛的非结构化文本数据抽取模型中，输出得到所述非结构化文本数据对应的自动化标注数据。

优选地，所述根据得到的自动化标注数据抽取得到对应的网络安全实体、属性及关系，具体包括：

从所述自动化标注数据中的第1位置开始进行遍历，当满足以下两个条件之一时提取文本作为威胁情报实体的主体属性：

在对应的所述自动化标注数据中，将主体属性和客体属性配对之间标签为has或exploit或belong或threat的句子文本提取为威胁情报实体的关系属性；

将提取的主体属性、客体属性、关系属性、该非结构化文本数据的来源、时间写入intelligence.csv文件；

如图2所示，Attacker（攻击者）类为网络安全领域类的一种，可以是个人，也可以是组织，其主要属性包括个人名称、组织名称、攻击地址列表、常用工具等，Property(Attacker)={id,type,personal names,organization,ipaddresses,tools,country}，如图3所示，其属性包括编号、攻击者类型、个人列表、组织名称、攻击者IP地址列表、常用工具列表和国家。

Attacker类与Cyberattack（网络攻击）类的关系是launch（发动）的关系，表示Attacker（攻击者）launch（发动）Cyberattack（网络攻击）；

Attacker类与Means（攻击方法）类的关系是use（使用）的关系，表示Attacker（攻击者）use（使用）了某个或某些手段Means（攻击方法）。

如图5所示，Means（攻击方法）类基于通用攻击模式库CAPEC（Common AttackPattern）和攻击行为模式知识库ATT&CK（Adversarial Tactics，Techniques，and CommonKnowledge）建立。CAPEC列举了针对利用漏洞进行攻击的攻击方法，可静态地对利用已知软件漏洞的攻击行为进行分类，其攻击目标是已知的。而攻击行为模型知识库矩阵枚举的攻击方法的作用目标是已知或未知的，它关注于攻击技术本身而非特定的系统或软件，可动态地关联攻击上下文并进行攻击意图推测，对复杂的攻击活动分析具有极高价值。现有的网络安全领域本体一方面极少使用这两种表示方式，另一方面即使使用，其大多本体也仅使用通用攻击模式库和攻击行为模型知识库中的一种来表示，在攻击方法表示方面偏向单一，此外，对于攻击行为的时序、因果等关系也没有进行归纳分析。本发明将两者进行结合以便更加全面表示攻击方法属性，同时体现攻击方法的时序、因果关系。攻击方法类的集合表示为Property(Mean)={id,name, desc,likelihood_of_mean,mean_severtity,execution_flow,prerequisite,required_skill,mean_mitigation,cwe_id,mean_tactic,platform,required_permission,capec_id,att_ck_id,common_target,common_group,common_tool,affected_service}。

Cyberattack（网络攻击）类与Target of attack（攻击目标）类的关系是attack（攻击）的关系，表示Cyberattack（网络攻击）类attack（攻击）了Target of attack（攻击目标），攻击目标以has的关系与Hardware（硬件）、OS（操作系统）、Software（软件）、IP、Port（端口）等类关联，其中，Target of attack（攻击目标）与Host（主机类）、 NetworkEquipment（网络设备类）、 Safety Equipment（安全设备类）以subClassOf（子类）的关系相关联，表示Host、Network Equipment、Safety Equipment是攻击目标类的子类，属性可以表述为Property(Host| Network Equipment | Safety Equipment)={id, type, user,organization, IP，hardware, OS, software }，如图4所示，其属性包括编号、资产类型、用户、组织、IP地址、硬件、操作系统和软件。

Target of attack（攻击目标）类与Consequence（后果）类以cause（导致）的关系相关联，表示Target of attack（攻击目标）cause（导致）了Consequence（后果）。

实施例2

本实施例提供一种网络安全知识图谱构建系统，包括：

模型构架模块，用于构建网络安全领域本体模型，所述模型定义为CDO模型，CDO= (C,I,R)，其中CDO表示网络安全领域本体，

数据获取模块，用于从互联网中获取结构化数据和非结构化文本数据；

提取模块，用于从结构化数据、半结构化数据和非结构化文本数据进行知识抽取得到网络安全实体、属性及关系；

图谱构建模块，用于将网络安全实体、属性和关系基于CDO模型存储到图数据库中，完成网络安全知识图谱的构建。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种网络安全知识图谱构建方法，其特征在于，包括：

构建网络安全领域本体模型，所述模型定义为CDO模型，CDO=(C,I,R)，其中CDO表示网络安全领域本体，

将网络安全实体、属性和关系基于CDO模型存储到图数据库中，完成网络安全知识图谱的构建；

从非结构化文本数据进行知识抽取得到网络安全实体、属性及关系，具体包括：

根据得到的自动化标注数据抽取得到对应的网络安全实体、属性及关系；

所述非结构化文本数据抽取模型的训练方法包括：

将训练集输入到利用神经网络构建的非结构化文本数据抽取模型中进行训练，得到收敛的非结构化文本数据抽取模型，并利用测试集对非结构化文本数据抽取模型进行验证；

所述实体分为主体和客体；

所述文本标签集表示为CyberTag，

CyberTag = { O , BS1 , IS1 , ES1 , SS1 , BS2 , IS2 , ES2 , SS2 , has , exploit , belong , threat },

其中文本标签集中O代表威胁情报类以外的其他安全领域类中的实体的文本字符，BS代表威胁情报类中的实体属性文本字符的开始位置，IS代表威胁情报类中的实体属性文本字符的中间位置，ES代表威胁情报类中的实体属性文本字符的结尾位置，SS代表单个文本字符的威胁情报类中的实体属性，所述文本字符为汉字或英文单词；威胁情报类中的实体属性位置由数字“1”和“2”表示， 1表示主体属性，2表示客体属性；has、exploit、belong和threat为威胁情报类中实体的关系属性的值，has代表主体与客体的关系是拥有或存在；exploit代表主体与客体的关系是利用，belong代表主体与客体的关系是属于，threat代表主体与客体的关系是威胁和攻击；

2.根据权利要求1所述的网络安全知识图谱构建方法，其特征在于，所述半结构化数据包括事件数据；

所述事件数据包括安全事件告警信息，其通过OSSIM 平台从不同的安全设备上获取。

3.根据权利要求2所述的网络安全知识图谱构建方法，其特征在于，网络安全领域类的集合C包括与网络资产相关的类、与脆弱性相关的类、与攻击相关的类、与观测指标相关的类和与情报相关的类；

所述与网络资产相关的类的集合表示为Class(Assets)={Host, Network Equipment,Safety Equipment, Hardware, OS, Software, Network, IP, Port}；

其中，Vulnerability表示漏洞类，Weakness表示弱点类；

其中，Attacker表示攻击者类，Mean表示攻击方法类，Tool表示攻击工具类， Malware表示恶意软件类， Consequence表示攻击结果类；

提取每台主机发生的安全事件对应的安全事件告警信息，得到每台主机预处理后的安全事件流为E={Emsg ₁ ，Emsg ₂ ，Emsg ₃ ,…Emsg _i …, Emsg _b }，Emsg _i表示安全事件，b表示有b个安全事件；

对于安全事件Emsg _i，通过在图数据库中检索该安全事件的目的IP 对应的主机h _j是否存在；如果不存在，则丢弃该安全事件；否则从图数据库中检索该安全事件的目标 IP 对应的主机h _j；

将安全事件Emsg _i中的漏洞类赋值给集合Vuls _Event；

4.根据权利要求1所述的网络安全知识图谱构建方法，其特征在于，所述将语料数据样本集和人工标注数据集进行预处理分别转化成数字矩阵集，具体包括：

初始化步骤：

设置语料数据样本集的最大句子长度SeqLength=0，设置句子列表DataList、LabelList、AttMaskList、TokenTypeList均为空序列；

读取步骤：

数字化步骤：

利用中文词库字典中汉字、英语单词、符号对应的ID，对句子Sen’按逐个汉字、英语单词、符号进行分割，将分割后的汉字、英语单词、符号转换成中文词库字典中的ID，得到数组SenIDS=[wid ₁ ,wid ₂ ,wid ₃ ,…wid _i ,…,wid _K ]，K是句子分割后汉字、英语单词、符号的总数量，wid _K表示中文词库字典中的ID值；

读取所述句子Sen对应的标注数据Lab，对标注数据Lab按逐个标签进行分割，将分割后的标签匹配标签字典LabDic中的数字，得到数组LabIDS=[lid ₁ ,lid ₂ ,lid ₃ ,…,lid _i ,…, lid _k ]；

矩阵组建步骤：

数据补齐步骤：

5.根据权利要求4所述的网络安全知识图谱构建方法，其特征在于，利用非结构化文本数据抽取模型对非结构化文本数据进行处理得到自动化标注数据，具体包括：

6.根据权利要求4-5任一项所述的网络安全知识图谱构建方法，其特征在于，所述根据得到的自动化标注数据抽取得到对应的网络安全实体、属性及关系，具体包括：

7.一种网络安全知识图谱构建系统，其特征在于，包括：

模型构架模块，用于构建网络安全领域本体模型，所述模型定义为CDO模型，CDO=(C,I, R)，其中CDO表示网络安全领域本体，

图谱构建模块，用于将网络安全实体、属性和关系基于CDO模型存储到图数据库中，完成网络安全知识图谱的构建；

所述非结构化文本数据抽取模型的训练方法包括：

所述实体分为主体和客体；

所述文本标签集表示为CyberTag，