CN113282764B

CN113282764B - 一种网络安全数据知识图谱构建方法及装置

Info

Publication number: CN113282764B
Application number: CN202110731613.2A
Authority: CN
Inventors: 陈霖; 匡晓云; 杨祎巍; 陈昊
Original assignee: CSG Electric Power Research Institute; Shenzhen Power Supply Bureau Co Ltd
Current assignee: CSG Electric Power Research Institute; Shenzhen Power Supply Bureau Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2023-05-23
Anticipated expiration: 2041-06-29
Also published as: CN113282764A

Abstract

本发明公开了一种网络安全数据知识图谱构建方法及装置，用于解决现有的网络安全数据分析方法存在局限性的技术问题。获取网络安全数据；对网络安全数据进行知识抽取，并根据抽取结果构建知识库；对字典知识三元组进行融合，得到基础知识图谱；在基础知识图谱上融合日志知识三元组，得到操作关系图谱；在操作关系图谱上融合文本知识三元组，得到深度图谱；将深度图谱映射到预设向量空间中，得到第一关系向量；将知识库映射到向量空间中，得到第二关系向量；计算第一关系向量和第二关系向量之间的相似度，根据相似度确定预测关系向量；获取预测关系向量对应的目标三元组，并将目标三元组与深度图谱融合，得到网络安全数据知识图谱。

Description

一种网络安全数据知识图谱构建方法及装置

技术领域

本发明涉及知识图谱技术领域，尤其涉及一种网络安全数据知识图谱构建方法及装置。

背景技术

现今，知识图谱广泛用于文本挖掘和文本知识推理领域，主要采用关键词提取算法从对象文本中抽取知识，再借助知识与知识之间相关性进行匹配链接。这种方法虽然能在商业推荐和广告投放等领域得到有效运用，但在网络安全分析领域却存在以下局限性：

1)网络安全分析的数据源除了包括文本等非结构化数据外，还包括网络日志、安全设备日志、数据库日志和结构化存储等结构化数据，传统的知识图谱难以开展知识抽取；

2)在文本的知识抽取上，传统的知识图谱会采用基于词频、局域距离的关键词提取算法，以及基于循环神经网络的关键词提取算法，但是相关算法各有利弊，难以有效刻画文本中的关键信息，比如一个词虽然在文中出现频率较高，但是不一定是该文本的关键词；而循环神经网络虽然能够对文本有较强的关键词挖掘能力，但是在面向大文本量挖掘时效率较低，并且只能挖掘特定的文本对象；

3)传统的知识图谱算法在知识融合方面主要采用文本相似度的融合方法，主要对具有词义的关键词进行融合分析，难以对没有词义的网络实体进行融合，比如网络主机IP、网络资产编号等；

4)在知识图谱的补全和链接的预测上，传统的知识图谱构建一般会采用TransE的方法，但是该方法存在一定的局限性，通过映射到低维空间并借助向量距离的方法预测准确率较低。

发明内容

本发明提供了一种网络安全数据知识图谱构建方法及装置，用于解决现有的网络安全数据分析方法存在局限性的技术问题。

本发明提供了一种网络安全数据知识图谱构建方法，包括：

获取网络安全数据；

对所述网络安全数据进行知识抽取，并根据抽取结果构建知识库；所述知识库记录有字典知识三元组、日志知识三元组和文本知识三元组；

对所述字典知识三元组进行融合，得到基础知识图谱；

在所述基础知识图谱上融合所述日志知识三元组，得到操作关系图谱；

在所述操作关系图谱上融合所述文本知识三元组，得到深度图谱；

将所述深度图谱映射到预设向量空间中，得到第一关系向量；

将所述知识库映射到所述向量空间中，得到第二关系向量；

计算所述第一关系向量和所述第二关系向量之间的相似度，根据所述相似度确定预测关系向量；

获取所述预测关系向量对应的目标三元组，并将所述目标三元组与所述深度图谱融合，得到网络安全数据知识图谱。

可选地，所述对所述网络安全数据进行知识抽取，并根据抽取结果构建知识库的步骤，包括：

对所述网络安全数据进行字典知识抽取，得到所述字典知识三元组；

对所述网络安全数据进行日志知识抽取，得到所述日志知识三元组；

对所述网络安全数据进行文本知识抽取，得到所述文本知识三元组；

采用所述字典知识三元组、所述日志知识三元组和所述文本知识三元组生成知识库。

可选地，所述对所述字典知识三元组进行融合，得到基础知识图谱的步骤，包括：

连接具有相同身份标识的字典知识三元组，生成人员知识图谱；

连接具有相同IP地址的字典知识三元组，生成资产知识图谱；

连接具有相同数据库标识的字典知识三元组，生成数据知识图谱；

连接所述人员知识图谱、所述资产知识图谱和所述数据知识图谱，生成基础知识图谱。

可选地，所述在所述基础知识图谱上融合所述日志知识三元组，得到操作关系图谱的步骤，包括：

当所述日志知识三元组存在唯一性实体时，确定所述唯一性实体的类别；

计算所述唯一性实体的第一哈希值；

计算所述基础知识图谱中所有实体分别对应的第二哈希值；

分别将所述第一哈希值与每一个所述第二哈希值进行比对，将数值与所述第一哈希值相同的第二哈希值对应的实体确定为目标实体；

连接所述唯一性实体和所述目标实体，得到操作关系图谱。

可选地，所述在所述操作关系图谱上融合所述文本知识三元组，得到深度图谱的步骤，包括：

当所述文本知识三元组的文本实体不具有唯一性时，对所述文本实体进行与消歧操作，得到消歧实体；

将所述消歧实体所对应的文本知识三元组与所述操作关系图谱融合，得到深度图谱。

本发明还提供了一种网络安全数据知识图谱构建装置，包括：

网络安全数据获取模块，用于获取网络安全数据；

知识抽取模块，用于对所述网络安全数据进行知识抽取，并根据抽取结果构建知识库；所述知识库记录有字典知识三元组、日志知识三元组和文本知识三元组；

基础知识图谱生成模块，用于对所述字典知识三元组进行融合，得到基础知识图谱；

操作关系图谱生成模块，用于在所述基础知识图谱上融合所述日志知识三元组，得到操作关系图谱；

深度图谱生成模块，用于在所述操作关系图谱上融合所述文本知识三元组，得到深度图谱；

第一关系向量生成模块，用于将所述深度图谱映射到预设向量空间中，得到第一关系向量；

第二关系向量生成模块，用于将所述知识库映射到所述向量空间中，得到第二关系向量；

预测关系向量确定模块，用于计算所述第一关系向量和所述第二关系向量之间的相似度，根据所述相似度确定预测关系向量；

网络安全数据知识图谱生成模块，用于获取所述预测关系向量对应的目标三元组，并将所述目标三元组与所述深度图谱融合，得到网络安全数据知识图谱。

可选地，所述知识抽取模块，包括：

字典知识抽取子模块，用于对所述网络安全数据进行字典知识抽取，得到所述字典知识三元组；

日志知识抽取子模块，用于对所述网络安全数据进行日志知识抽取，得到所述日志知识三元组；

文本知识抽取子模块，用于对所述网络安全数据进行文本知识抽取，得到所述文本知识三元组；

知识库生成子模块，用于采用所述字典知识三元组、所述日志知识三元组和所述文本知识三元组生成知识库。

可选地，所述基础知识图谱生成模块，包括：

人员知识图谱生成子模块，用于连接具有相同身份标识的字典知识三元组，生成人员知识图谱；

资产知识图谱生成子模块，用于连接具有相同IP地址的字典知识三元组，生成资产知识图谱；

数据知识图谱生成子模块，用于连接具有相同数据库标识的字典知识三元组，生成数据知识图谱；

基础知识图谱生成子模块，用于连接所述人员知识图谱、所述资产知识图谱和所述数据知识图谱，生成基础知识图谱。

本发明还提供了一种电子设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如上任一项所述的网络安全数据知识图谱构建方法。

本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上任一项所述的网络安全数据知识图谱构建方法。

从以上技术方案可以看出，本发明具有以下优点：本发明通过获取网络安全数据；对网络安全数据进行知识抽取，并根据抽取结果构建知识库；知识库记录有字典知识三元组、日志知识三元组和文本知识三元组；对字典知识三元组进行融合，得到基础知识图谱；在基础知识图谱上融合日志知识三元组，得到操作关系图谱；在操作关系图谱上融合文本知识三元组，得到深度图谱；将深度图谱映射到预设向量空间中，得到第一关系向量；将知识库映射到向量空间中，得到第二关系向量；计算第一关系向量和第二关系向量之间的相似度，根据相似度确定预测关系向量；获取预测关系向量对应的目标三元组，并将目标三元组与深度图谱融合，得到网络安全数据知识图谱。从而解决现有的网络安全数据分析方法存在局限性的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种网络安全数据知识图谱构建方法的步骤流程图；

图2为本发明实施例提供的一种命名实体识别的过程示意图；

图3为本发明实施例提供的一种BiLSTM CRF模型的结构示意图；

图4为本发明实施例提供的一种人员知识图谱的结构示意图；

图5为本发明实施例提供的一种资产知识图谱的结构示意图；

图6为本发明实施例提供的一种数据知识图谱的结构示意图；

图7为本发明实施例提供的一种基础知识图谱的结构示意图；

图8为本发明实施例提供的一种操作关系图谱的结构示意图；

图9为本发明实施例提供的一种深度图谱的结构示意图；

图10为本发明实施例提供的一种分层训练的流程示意图；

图11为本发明实施例提供的一种网络安全数据知识图谱构建装置的结构框图。

具体实施方式

本发明实施例提供了一种网络安全数据知识图谱构建方法及装置，用于解决现有的网络安全数据分析方法存在局限性的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种网络安全数据知识图谱构建方法的步骤流程图。

本发明提供的一种网络安全数据知识图谱构建方法，具体可以包括以下步骤：

步骤101，获取网络安全数据；

在本发明实施例中，网络安全数据可以包括人员数据、资产数据、数据库数据、和安全数据等数据。

其中，人员数据可以包括姓名、工作编号、邮箱账号、身份证号、部门单元等实体数据，以及属于、拥有等从属关系。

其数据字典来源可以是公司4A数据库人员信息表；通过唯一的身份证号或工作编号或邮箱账号可查询得到：工作编号、身份证号、邮箱账号、职务、职级、所在单位(二级单位)、所在部门(三级机构)等属性信息。

数据库数据可以包括数据库名称、数据库版本、数据表名称、数据字段名称、文件名称、数据IP地址等实体，以及属于、包含等从属关系动词；选择、插入、删除、修改、发送、召回、拷贝等数据操作动词；访问、关闭、重启等操作动词之类的关系。

其数据字典来源包括业务数据库中的数据库信息，如数据库名称、数据库表名称、数据库表中字段名称、字段类型、字段大小；以及公文OA数据库和合同数据库中的文件信息，如文件名称、发文主体单位、受文主体单位。

资产数据可以包括IP地址、操作系统版本、中间件版本、业务系统名称等实体；以及属于、拥有等从属关系动词；访问、关闭、重启等操作动词对应的关系。

其数据字典可以来源于资产数据库中的资产信息表，包括IP地址、资产编码、设备所有人、所属业务系统名称。

安全知识数据可以包括漏洞名称、攻击名称等实体；以及存在于、攻击/被攻击、导致等安全动词对应的关系。

步骤102，对网络安全数据进行知识抽取，并根据抽取结果构建知识库；知识库记录有字典知识三元组、日志知识三元组和文本知识三元组；

在获取到网络安全数据后，可以对其进行知识抽取，并根据抽取结构构建知识库。其中，所抽取得到的知识可以包括字典知识三元组、日志知识三元组和文本知识三元组。

因此，步骤102可以包括以下子步骤：

S21，对网络安全数据进行字典知识抽取，得到字典知识三元组；

S22，对网络安全数据进行日志知识抽取，得到日志知识三元组；

S23，对网络安全数据进行文本知识抽取，得到文本知识三元组；

S24，采用字典知识三元组、日志知识三元组和文本知识三元组生成知识库。

在本发明实施例中，知识抽取可以包括字典知识抽取、日志知识抽取和文本知识抽取。其中，字典知识抽取主要用于构建整个网络安全知识图谱中的基础图谱，其包含人员与人员相关属性之间的关系图谱、资产与资产相关属性之间的关系图谱、数据存储中数据与数据属性之间的关系图谱。对于日志知识抽取，则主要抽取出人对数据的操作关系、人对资产的操作关系和资产本身的安全关系。对于文本知识抽取，主要抽取出文本中包含的人的相关信息、文件名和文本主题信息。

其具体实现如下所示：

1)基于语义规则的字典知识抽取：

在本发明实施例中，对于字典中的结构化数据，可以通过预设的语义规则对结构化数据表中的每一行进行实体与关系的提取。

在一个示例中，对于人员信息相关字典，可以预设语义提取规则如下表1所示：

头实体	关系	尾实体
			姓名	属于	身份证号
工作编号	属于	身份证号
			邮箱账号	属于	身份证号
身份证号	属于	单位部门
			部门	属于	单位

表1对于数据信息相关字典，可以预设语义提取规则如下表2所示：

头实体	关系	尾实体
			数据库表(名称)	属于	数据库(名称)
字段	属于	数据库表
			字段大小	属于	字段
字段类型	属于	字段

表2对于资产信息相关字典，可以预设语义提取规则如下表3所示：

头实体	关系	尾实体
			IP地址	属于	资产编号
字段	属于	数据库表

表3

2)基于日志规则的日志知识抽取：

在本发明实施例中，网络安全数据包括日志数据，在获取到日志数据后可以对其进行预处理，从而将非结构化的日志数据转化为结构化的关系型数据，并以表的形式存在关系型数据库中。在本发明实施例中，对于日志知识的抽取，主要可以包括：数据库日志知识抽取、主机日志知识抽取、网络日志知识抽取和安全日志知识抽取。

针对数据库日志知识抽取，以在数据库192.0.3.1中获取的Syslog日志为例，经过数据预处理后，可以在数据存储中获得如下表4所示的结构数据：

VERSION	TIMESTAMP	HOSTNAME	APPNAME	MESSAGE
					1	2020-07-11	192.0.2.1	Mysql	“select name,idnumber from user”

表4

在MESSAGE字段中，针对SQL语句的解析采用正则匹配的手段，对于SQL语句中特有的SELECT、INSERT、DELETE、ALTER等命令语句和FROM、WHERE等定位语句进行数据字段提取。如上例中的name、idnumber字段数据实体信息和user数据库表实体信息。

从上表的Syslog日志中，根据syslog来源确定发起操作的终端实体。根据字段HOSTNAME，APPNAME，MESSAGE提取出终端实体“192.0.2.1”和对应的数据库实体Mysql数据库实体、发起的终端实体对数据实体user、name、idnumber的操作关系。可得到如下表5所示元组关系：

表5

数据库日志数据以在MongoDB表中获取的数据为例，经过数据预处理，获得了如下表6所示的结构数据。

表6

从表6中，根据字段IP、Account、DATABASE、DATABASEIP、DDL提取出实体，根据描述建立操作关系，可以得到如下表7所示的元组关系：

实体	关系	实体
			192.0.1.1	更改	User
192.0.1.1	访问	192.0.2.4
			192.0.1.1	访问	MongoDB
192.0.1.1	拥有	用户实体(Root)
			Root	访问	MongoDB
Root	访问	192.0.2.4
			192.0.2.4	拥有	MongoDB
MongoDB	拥有	Person
			Person	拥有	FirstName
Person	拥有	LastName

表7

同理，针对主机日志、安全日志和网络日志，我们可以对不同主流厂商和设备版本的日志组成规则进行分析，从而对日志中的信息进行结构化抽取。

3)基于主题关键词和BiLSTM CRF的文本知识抽取：

对于文本中存在的知识，同样将其结构为(头实体，关系，尾实体)的三元组，并且约定：“关系＝包含”且“头实体＝文本名”。经过这样的处理后，文本的知识的通用表达则是(文本名，包含，尾实体)的固定范式，此时的关键任务则落在头实体和尾实体的识别与抽取上。并且对于一个文本而言，其文本名可以用文本关键词进行代表，这就将该为题转化为文本关键词抽取问题；与此同时，尾实体则可以转化为文本命名实体的识别问题。

在本发明实施例中，在进行文本关键词提取前，可以先判断文本是否已经具有标题，若已经具有标题，则将标题作为文本关键词即文本名；若文本本身并不具有标题(比如无标题的网络邮件正文)，那么可以采用传统的TF-IDF方法进行关键词提取，并将得分最高的关键词作为文本关键词。TF-IDF主要采用统计学的方法，用以评估一字词对于一个文本的重要程度，如果某个单词在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF的原理如下面公式所示：

其中，TF代表词频，即文本中某词出现的频率。n_ij代表第i个词在文本j中出现的次数，

表示假定文本中一共有m个不同的词，所有不同的词在文本中出现的次数总和。

除了计算词频TF之外，还需计算逆向文件频率IDF：

其中，|D|是语料库中的文件总数。|{j:t_i∈d_j}|表示包含词语t_i的文件数目(即n_ij≠0的文件数目)。如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用1+|{j:t_i∈d_j}|，d_j表示拥有词语t_i的第j个文件。

在完成TF和IDF计算后，可以对TF-IDF的值进行计算，计算公式如下：

TF-IDF＝TF*IDF

针对命名实体的识别，可以采用双向长短期记忆神经网络BiLSTM和条件随机场CRF相结合的方法。实际工作中，先对文本进行预处理，删除除了逗号、句号、分号、问号和感叹号以外的所有标点符号，并基于标点符号进行分句，每两个标点符号之间的文本段作为一句，并将其作为BiLSTM的输入。由于本次识别任务主要是识别出文本中存在的人名、组织名和文件名这些与企业秘密相关的实体，因此可以约定本次识别任务的标签总共有七类，分别是：B-PER(人名的起始)、I-PER(人名的内容)、B-ORG(组织名的起始)、I-ORG(组织名的内容)、B-FILE(文件名的起始)、I-FILE(文件名的内容)和O(其他)。首先，将输入的句子采用CBOW模型进行词向量化，并将向量化后的词作为BiLSTM的输入向量。在经过BiLSTM的学习之后，能够得到句中每个词对应标签的得分序列，而这些得分序列则是CRF层的输入。如图2所示，可以得到BiLSTM层的输出为每一个标签的预测分值。

由于BiLSTM的输出为单元的每一个标签分值，因此可以挑选分值最高的一个作为该单元的标签。虽然可以得到句子x中每个单元的正确标签，但是不能保证标签每次都是预测正确的,即所谓的标记偏置的问题。因此需要在BiLSTM之后引入规则来进一步优化最终的输出，而在本发明实施例中可以采用加入CRF层的方法，运用CRF层自动学习出相关的约束规则，这些约束规则可以是对句中词语出现位置的要求(比如要求一个正确命名实体的开头必须是B-而不是L-)。整个CRF的学习训练过程即是对CRF损失函数进行优化。而CRF损失函数由真实路径得分和所有可能路径的总得分组成，其优化目标即是使得在左右可能的路径中真实路径的得分应该最高。计算公式如下所示。

其中，P_realpath指代真实路径的得分，P1、P2、....Pn分别指每一个可能的路径的得分。

BiLSTM CRF模型的示意图如图3所示。最终的输出则是每个句子中的命名实体。

在得到命名实体之后，可以抽取出文本知识如下表8所示：

头实体	关系	尾实体
			文本名	包含	人名
文本名	包含	组织机构名称
			文本名	包含	文件名

表8

在获取到上述的知识三元组后，可以将其存储在数据库中形成知识库。

步骤103，对字典知识三元组进行融合，得到基础知识图谱；

在本发明实施例中，对字典知识三元组进行融合，可以得到基础知识图谱。在一个示例中，步骤103可以包括以下子步骤：

S31，连接具有相同身份标识的字典知识三元组，生成人员知识图谱；

S32，连接具有相同IP地址的字典知识三元组，生成资产知识图谱；

S33，连接具有相同数据库标识的字典知识三元组，生成数据知识图谱；

S34，连接人员知识图谱、资产知识图谱和数据知识图谱，生成基础知识图谱。

在本发明实施例中，对于基于字典知识融合的基础图谱构建可以包括：构建人员知识图谱、资产知识图谱和数据知识图谱，并基于这三种知识图谱构建基础知识图谱。

在具体实现中，对于与人员相关的字典知识，以身份证号为唯一实体，通过实体遍历，对具有同一身份证号的三元组进行连接，形成人员知识图谱，如图4所示。

对于资产相关的字典知识，以IP地址为唯一实体，通过实体遍历，对具有同一IP地址的三元组进行连接，形成资产知识图谱，如图5所示。

对于数据相关的字典知识，以数据库标识为唯一实体，通过实体遍历，对具有同一数据库标识的三元组进行连接，形成数据知识图谱，如图6所示。

当完成人员图谱、资产图谱与数据图谱构建后，可以借助不同图谱具有相同IP这一关系将3个图谱连接起来，形成基础知识图谱，如图7所示。

步骤104，在基础知识图谱上融合日志知识三元组，得到操作关系图谱；

日志知识主要体现人对数据的操作关系、人对资产的操作关系和资产本身的安全关系。对于从日志中获取三元组，可借助其身份证号、邮箱、工作编号、IP、资产编码等具有唯一性的实体进行实体的连接，从而在基础图谱的基础上进一步形成深层次的操作关系图谱。

在本发明实施例中，步骤104可以包括以下子步骤：

S41，当日志知识三元组存在唯一性实体时，确定唯一性实体的类别；

S42，计算唯一性实体的第一哈希值；

S43，计算基础知识图谱中所有实体分别对应的第二哈希值；

S44，分别将第一哈希值与每一个第二哈希值进行比对，将数值与第一哈希值相同的第二哈希值对应的实体确定为目标实体；

S45，连接唯一性实体和目标实体，得到操作关系图谱。

在本发明实施例中，可以先进行唯一性实体的识别，唯一性实体主要包括5类：身份证编号、工作编号、邮箱地址、IP地址和资产编码。在抽取实体关系的过程中，可以同步对抽取出的头实体和尾实体进行“唯一性实体识别”，并对其进行归类，打上相应的类别标识。对于某一个三元组，如果其存在“唯一性实体”，则判断其所在的类别，采用“分而治之”的方法进行并行处理，从而加快处理速度。首先是将该实体计算hash值，并复制100个副本，再将基础图谱中该类别的实体(具有有限个，但数量较多同时具有唯一性)均计算第一哈希值，分为100个块进行存储，最后分别将待连接实体的第一哈希值与各个块中的第二哈希值进行并行比对，一旦找到相同hash值得实体，则将其连接起来，得到操作关系图谱。操作关系图谱的具体结构如图8所示。

步骤105，在操作关系图谱上融合文本知识三元组，得到深度图谱；

在本发明实施例中，步骤105可以包括以下子步骤：

S51，当文本知识三元组的文本实体不具有唯一性时，对文本实体进行与消歧操作，得到消歧实体；

S52，将消歧实体所对应的文本知识三元组与操作关系图谱融合，得到深度图谱。

对于网络邮件正文、邮件附件、合同文本、业务相关文件等非结构化文本数据抽取出的文本知识，由于其实体本身具有不确定性，有可能三元组中的头实体和尾实体均不具有唯一性。应该需要分情况进行分析融合。

当文本知识中的实体具有唯一性时，其融合方法与日志知识的融合方法一致。当文本知识中的实体不具有唯一性时，其融合方法如下：先将从文本数据中抽取出的实体进行对齐和消歧操作，具体可以采用计算实体之间相似度的方法，一旦相似度超过阈值，则将两个实体进行连接，实现知识的融合。在完成文本实体的对齐与消歧之后，由于文本主题与人员的唯一性标识具有操作关系并与IP地址也具有位置关系，因此，能够实现文本知识与已构建图谱的融合，生成深度图谱。在一个示例中，深度图谱的结构可以如图9所示。

步骤106，将深度图谱映射到预设向量空间中，得到第一关系向量；

步骤107，将知识库映射到向量空间中，得到第二关系向量；

步骤108，计算第一关系向量和第二关系向量之间的相似度，根据相似度确定预测关系向量；

在本发明实施例中，在基于已有数据完成所有知识的融合之后，知识图谱还面临一个关键问题，即是如何挖掘实体之间潜在的关联关系，从而进行知识图谱的补全和连接预测。

在本发明实施例中，虽然已经根据已有的字典知识、日志知识和文本知识构建出初步的数据安全知识图谱，但是前述方法只能基于已有知识进行连接，并不能实现基于已有知识推断得到新的知识，即预测出实体之间新的关联关系。有鉴于此，本发明提出了一种示例在于，先采用深度表示学习的方法，将知识图谱中的三元组映射到同一的向量空间中，用低维稠密的向量进行表示，将抽象的符号问题转化为可计算的向量问题，生成第一关系向量；再将第一关系向量与知识库中的第二关系向量进行向量相似度计算，最后选取相似度最高的第二关系向量作为预测关系向量。整个过程涉及到知识空间到向量空间再到知识空间的转换，同时也将预测问题解构为推荐问题，具体可以分为深度表示学习和关系预测两个步骤，具体过程如下：

1)基于DKRL(Description-Embodied Knowledge Representation Learning，实体描述的知识表示学习)的深度表示学习

基于DKRL的深度学习表示先运用模型继续你那个面向图谱的表层学习，在结合实体的描述，运用卷积神经网络对实体描述进行特征提取，再将提取到的描述特征与TransE得到的特征进行融合，从而得到既含有实体描述又含有图谱特征的向量表示，实现深度表示学习，使得向量对实体的刻画更加准确。

受到语义空间平移现象的启发，平移模型将这种隐含语义关系显式地用关系进行表示，具体地，对于给定的三元组(h，r，t)，平移模型将关系向量r看作从头实体h到尾实体t的平移向量。基于上述平移假设，平移模型希望一个三元组内的实体与关系向量之间存在h+r≈t的关系。形式化地，模型对三元组(h，r，t)定义了定义如下评分函数进行优化：

其中，T和T′分别是正例三元组与负例三元组的集合；γ是正负例三元组得分的间距。评分函数通过最大化正负例三元组之间的得分差来优化知识表示，以期得到评分最小对应的最优三元组。

以计算一个三元组的知识表示为例，TransE模型首先会对三元组中的头实体、尾实体和关系随机赋予一个50维或100维的向量，再代入评分函数进行优化计算，经过多次计算后，会得到该三元组的多个向量表示及其对应的评分，最后按照评分从小到大排序，选取评分最小的向量作为该三元组的知识表示。此处得到的知识表示只是面向图谱特征的表示，还未融合实体的深度语义特征。

为了进一步融合实体的深度语义特征，可以采用实体描述对三元组的向量进行完善。在本发明实施例中，实体描述主要来源于企业各大数据库，与人相关的描述可以以人资数据库中的个人简介为数据源，与资产相关的描述可以以资产数据中资产的简介为数据源，与安全相关的描述可以以安全情报系统中的情报的相关简介为数据源(如漏洞简介、病毒简介和攻击简介等)。在获得实体描述后，DKRL模型采用了分层训练的方法，先是以实体描述为输入，通过实体描述编码器得到实体基于描述的表示。然后在顶层，基于描述的表示与基于结构的表示在统一的平移模型框架下进行学习，最终得到融合实体描述的深度知识表示。

在分层训练的第一步，可以采用卷积神经网络(CNN)来得到实体基于描述的表示。实验中使用两层卷积层与对应的池化层对实体描述进行建模，最后一层池化层将信息编码为一个固定长度的向量。在第一个池化层使用了最大池化策略，而在第二层使用了平均池化策略，这是由于第一层对应句子的局部特征，需要更强的去除冗余和噪声的能力，而第二层对应文本描述全局的特征，需要每个句子都对最终结果产生贡献。

在分层训练第二步，DKRL沿用了TransE中的平移假设思想。为了对文本空间与知识空间的表示进行联合训练，DKRL的能量函数对二者进行了融合：

E(h,r,t)＝α₁||h_s+r-t_s||+α₂||h_s+r-t_D||+α₃||h_D+r-t_s||+α₄||h_D+r-t_D||

其中，α₁、α₂、α₃、α₄是控制各项权值的超参数，下标S、D用于区分基于知识图谱和基于实体描述文本的实体表示。在能量函数中，||h_s+r-t_s||部分与平移模型的能量函数类似，而||h_s+r-t_D||、||h_D+r-t_S||和||h_D+r-t_D||3项则加入了基于描述的实体向量影响。这样，通过混合项的软限制，DKRL模型将实体的两种向量映射到了统一语义空间中，并共享相同的关系向量。

在训练过程中，DKRL使用随机生成负例，使用最大间隔方法，定义如下优化目标函数：

其中，T和T′分别为知识图谱中关系三元组的正例集和正例三元组随机替换任一元素得到的三元组的负例集。

在一个示例中，分层训练的流程可以如图10所示。

2)基于向量相似度计算的关系预测

对于从1)中得到的向量表示，将不具有关系连接的实体向量根据下述公式进行两两相加，可以得到第一关系向量。

接着将第一关系向量与知识库中的第二关系向量按照下述公式进行余弦相似度计算，可以确定相似度最高的向量作为预测关系向量。

步骤109，获取预测关系向量对应的目标三元组，并将目标三元组与深度图谱融合，得到网络安全数据知识图谱。

在获取到预测关系向量后，可以获取其对应的目标三元组，根据其对应的关系表示，将该目标三元组与深度图谱融合，可以得到网络安全数据知识图谱。

本发明实施例通过获取网络安全数据；对网络安全数据进行知识抽取，并根据抽取结果构建知识库；知识库记录有字典知识三元组、日志知识三元组和文本知识三元组；对字典知识三元组进行融合，得到基础知识图谱；在基础知识图谱上融合日志知识三元组，得到操作关系图谱；在操作关系图谱上融合文本知识三元组，得到深度图谱；将深度图谱映射到预设向量空间中，得到第一关系向量；将知识库映射到向量空间中，得到第二关系向量；计算第一关系向量和第二关系向量之间的相似度，根据相似度确定预测关系向量；获取预测关系向量对应的目标三元组，并将目标三元组与深度图谱融合，得到网络安全数据知识图谱。从而解决现有的网络安全数据分析方法存在局限性的技术问题。

请参阅图11，图11为本发明实施例提供的一种网络安全知识图谱构建装置的结构示意图。

本发明实施例提供了一种网络安全数据知识图谱构建装置，包括：

网络安全数据获取模块1101，用于获取网络安全数据；

知识抽取模块1102，用于对网络安全数据进行知识抽取，并根据抽取结果构建知识库；知识库记录有字典知识三元组、日志知识三元组和文本知识三元组；

基础知识图谱生成模块1103，用于对字典知识三元组进行融合，得到基础知识图谱；

操作关系图谱生成模块1104，用于在基础知识图谱上融合日志知识三元组，得到操作关系图谱；

深度图谱生成模块1105，用于在操作关系图谱上融合文本知识三元组，得到深度图谱；

第一关系向量生成模块1106，用于将深度图谱映射到预设向量空间中，得到第一关系向量；

第二关系向量生成模块1107，用于将知识库映射到向量空间中，得到第二关系向量；

预测关系向量确定模块1108，用于计算第一关系向量和第二关系向量之间的相似度，根据相似度确定预测关系向量；

网络安全数据知识图谱生成模块1109，用于获取预测关系向量对应的目标三元组，并将目标三元组与深度图谱融合，得到网络安全数据知识图谱。

在本发明实施例中，知识抽取模块1102，包括：

字典知识抽取子模块，用于对网络安全数据进行字典知识抽取，得到字典知识三元组；

日志知识抽取子模块，用于对网络安全数据进行日志知识抽取，得到日志知识三元组；

文本知识抽取子模块，用于对网络安全数据进行文本知识抽取，得到文本知识三元组；

知识库生成子模块，用于采用字典知识三元组、日志知识三元组和文本知识三元组生成知识库。

在本发明实施例中，基础知识图谱生成模块1103，包括：

基础知识图谱生成子模块，用于连接人员知识图谱、资产知识图谱和数据知识图谱，生成基础知识图谱。

在本发明实施例中，操作关系图谱生成模块1104，包括：

类别确定子模块，用于当日志知识三元组存在唯一性实体时，确定唯一性实体的类别；

第一哈希值计算子模块，用于计算唯一性实体的第一哈希值；

第二哈希值计算子模块，用于计算基础知识图谱中所有实体分别对应的第二哈希值；

目标实体确定子模块，用于分别将第一哈希值与每一个第二哈希值进行比对，将数值与第一哈希值相同的第二哈希值对应的实体确定为目标实体；

操作关系图谱生成子模块，用于连接唯一性实体和目标实体，得到操作关系图谱。

在本发明实施例中，深度图谱生成模块1105，包括：

消歧子模块，用于当文本知识三元组的文本实体不具有唯一性时，对文本实体进行与消歧操作，得到消歧实体；

深度图谱生成子模块，用于将消歧实体所对应的文本知识三元组与操作关系图谱融合，得到深度图谱。

本发明实施例还提供了一种电子设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行本发明任一实施例的网络安全数据知识图谱构建方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行本发明任一实施例的网络安全数据知识图谱构建方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络安全数据知识图谱构建方法，其特征在于，包括：

获取网络安全数据；

连接所述人员知识图谱、所述资产知识图谱和所述数据知识图谱，生成基础知识图谱；

将所述知识库映射到所述向量空间中，得到第二关系向量；

2.根据权利要求1所述的方法，其特征在于，所述对所述网络安全数据进行知识抽取，并根据抽取结果构建知识库的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述在所述基础知识图谱上融合所述日志知识三元组，得到操作关系图谱的步骤，包括：

计算所述唯一性实体的第一哈希值；

计算所述基础知识图谱中所有实体分别对应的第二哈希值；

连接所述唯一性实体和所述目标实体，得到操作关系图谱。

4.根据权利要求1所述的方法，其特征在于，所述在所述操作关系图谱上融合所述文本知识三元组，得到深度图谱的步骤，包括：

5.一种网络安全数据知识图谱构建装置，其特征在于，包括：

网络安全数据获取模块，用于获取网络安全数据；

基础知识图谱生成子模块，用于连接所述人员知识图谱、所述资产知识图谱和所述数据知识图谱，生成基础知识图谱；

6.根据权利要求5所述的装置，其特征在于，所述知识抽取模块，包括：

7.一种电子设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的网络安全数据知识图谱构建方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的网络安全数据知识图谱构建方法。