CN111698207B

CN111698207B - 网络信息安全的知识图谱的生成方法、设备和存储介质

Info

Publication number: CN111698207B
Application number: CN202010375728.8A
Authority: CN
Inventors: 马维士; 郝伟; 沈传宝; 李岩; 刘加勇; 万会来
Original assignee: Beijing Huayuan Information Technology Co Ltd
Current assignee: Beijing Huayuan Information Technology Co Ltd
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2023-02-28
Anticipated expiration: 2040-05-07
Also published as: CN111698207A

Abstract

本公开提供了网络信息安全的知识图谱的生成方法、设备和计算机可读存储介质。所述方法包括：获取原始网络安全数据，所述网络安全数据为描述网络信息安全的初始信息；利用网络安全数据模型对所述原始网络安全数据进行处理，生成实体关系组，所述实体关系组包括从所述原始网络安全数据中提取出网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系；对所述实体关系组进行融合，生成网络信息安全的知识图谱。以此方式生成的知识图谱，可以实现在交换时更好的互相兼容，同时能够使用通用信息处理技术对自然语言描述的信息进行分析处理。

Description

网络信息安全的知识图谱的生成方法、设备和存储介质

技术领域

本公开的实施例一般涉及信息安全领域，并且更具体地，涉及网络信息安全的知识图谱的生成方法、设备和存储介质。

背景技术

随着网络的广泛应用，各领域的网络数据正在处于飞速增长中。如何更方便地在海量的网络数据中获取有价值的数据和信息，已成为各领域人员都需要面对的问题。例如，在网络安全领域中，技术人员往往需要利用网络安全相关的网络数据来查找针对特定的漏洞或弱点的应对策略。尤其是，在网络安全相关的信息对象之间的关系中，往往也存在技术人员需要了解的信息。

网络安全信息是网络攻防中的重要数据，这些数据包括软硬件参数、网络配置、日志、用户信息等。在当前的网络信息管理中，重要的威胁信息基本都是以数据库技术进行存储，以固定的数据处理模型进行分析提取，以人为定义的方式进行描述和交换。申请人在实现本公开技术方案的工程中发现现有的网络信息管理存在以下问题：结构固定无法满足通用的自然语言描述的信息分析；固定的格式导致交换时无法互相兼容；无法使用通用信息处理技术，从而降低了网络安全信息数据库的通用性和广泛性。

发明内容

根据本公开的实施例，提供了一种满足提高网络安全信息数据库的通用性和广泛性的需求的方案。

在本公开的第一方面，提供了一种网络信息安全的知识图谱的生成方法，包括：

获取原始网络安全数据，所述网络安全数据为描述网络信息安全的初始信息；

利用网络安全数据模型对所述原始网络安全数据进行处理，生成实体关系组，所述实体关系组包括从所述原始网络安全数据中提取出网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系；

对所述实体关系组进行融合，生成网络信息安全的知识图谱。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述原始网络安全数据包括结构化数据、半结构化数据和非结构化数据，所述利用网络安全数据模型对所述原始网络安全数据进行处理，包括：

利用网络安全数据模型对所述原始网络安全数据中的半结构化数据和非结构化数据进行处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述网络安全数据模型通过以下方式训练得到：

以大量原始网络安全数据作为训练样本，标识出所述训练样本的网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系；

然后将所述训练样本输入到预先建立的神经网络模型，对所述训练样本进行学习，输出训练样本中的网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系，当输出结果与标识结果的相似度大于预设阈值时，对神经网络的模型的参数进行修正；

重复上述过程，直到当输出结果与标识结果的相似度小于所述预设阈值。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，还包括：

对所述原始网络安全数据进行结构化识别，将所述原始网络安全数据划分为结构化数据、半结构化数据和非结构化数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对所述实体关系组进行融合，生成网络信息安全的知识图谱，包括：

对所述实体关系组进行聚类分析，将同一聚类中具有不同描述信息的实体关系组进行合并，将不同聚类中具有相同描述信息的实体关系组区分为不同的实体关系组。

根据同一聚类中的实体关系组进行关系推断，建立同一聚类中的实体关系组之间的关联关系。

对融合后得到的知识图谱进行质量评估，并将评估合格后的知识图谱加入到知识库。

在知识库中加入新知识图谱后，对知识库中的原知识图谱进行更新和扩展，建立新知识图谱和原知识图谱之间的关联关系，并将满足预设条件的新知识图谱和原知识图谱进行融合。

在本公开的第二方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本公开的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

通过本公开的实施例的网络信息安全的知识图谱的生成方法生成的知识图谱，能够实现在交换时更好的互相兼容，同时能够使用通用信息处理技术对自然语言描述的信息进行分析处理。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开实施例一的网络信息安全的知识图谱的生成方法的流程图；

图2示出了本公开实施例二的网络信息安全的知识图谱的生成方法的流程图；

图3示出了本公开实施例三的网络信息安全的知识图谱的生成方法的一个具体实例的流程框图；

图4示出了本公开实施例四的网络信息安全的知识图谱的生成设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开实施例中提及的知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

本公开的实施例中，通过采用神经网络模型对原始网络安全数据进行处理，生成实体关系组，并对实体关系组进行融合，生成网络信息安全的知识图谱，能够实现知识图谱在交换时更好的互相兼容，同时能够使用通用信息处理技术对自然语言描述的信息进行分析处理。

具体地，如图1所示，为本公开实施例一的网络信息安全的知识图谱的生成方法的流程图。从图1中可以看出，本实施例的方法，可以包括以下步骤：

S101：获取原始网络安全数据，所述网络安全数据为描述网络信息安全的初始信息。

网络安全信息是网络攻防中的重要数据，这些数据包括软硬件参数、网络配置、日志、用户信息等。在当前的网络信息管理中，重要的威胁信息基本都是以数据库技术进行存储，以固定的数据处理模型进行分析提取，以人为定义的方式进行描述和交换。

在本实施例中，在对自然语言描述的安全信息进行处理时，首先需要获取原始网络安全数据，所述网络安全数据为描述网络信息安全的初始信息。所获取的数据可以是CVE(Common Vulnerabilities&Exposures，公共漏洞与暴露)中的漏洞描述信息和/或互联网上收集到的网络安全相关信息，比如，可以是漏洞发布平台所发布的漏洞信息、相关媒体发布的关于漏洞的新闻以及突发安全事件的细节描述以及技术人员在网上发布的博文等信息，这些信息通常都与网络安全相关，因此，可以将这些信息作为网络安全相关的原始网络安全数据。

S102：利用网络安全数据模型对所述原始网络安全数据进行处理，生成实体关系组，所述实体关系组包括从所述原始网络安全数据中提取出网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系。

在实际应用中，由于信息的不确定性和自然语言描述的不准确性，在信息安全领域的信息，难得自动化进行处理。例如，“拒绝服务攻击”这一信息，在不同场景下的描述可能不同，可以描述为“服务攻击被拒绝”，也可以描述为“把服务攻击拒绝”，还可以描述为“在遭受到服务攻击后，拒绝”等，此外还可以有其他不规范的描述，这里不再一一列举。同时，由于可能是从不同的数据来源处收集到网络安全相关的数据，则在所收集的网络安全相关的数据中，通常会存在相同含义的网络安全信息具有不同的描述。因此，可以通过归一化处理对网络安全相关的收集数据进行整合，从中提取出用于构建网络安全知识图谱的初始信息，其中，该初始信息可以包含网络安全信息中的实体以及实体之间的关系。

比如，在一些博文中，针对于“拒绝服务攻击”的描述可能为“拒绝服务攻击即是攻击者想办法让目标机器停止提供服务”；而在一些媒体发布的关于漏洞的新闻中，针对于“拒绝服务攻击”描述可能为“使得目标机器无法提供正常的服务”，可见，在博文中所采集的针对于“拒绝提供服务”的描述，与在新闻中所采集的针对于“拒绝提供服务”的描述存在差异，但都是表达了相同的含义。因此，可以将这两种描述进行整合为其中一种描述，为“拒绝服务攻击即是攻击者想办法让目标机器停止提供服务”。

又比如，语言种类的差异，使得中文描述“拒绝服务攻击”与英文描述“DenialofService”具有相同的含义；而且，基于命名方式的差异，语言种类相同的英文描述“Denialof Service”与英文描述，也具有相同的含义。因此，“拒绝服务攻击”、“DenialofService”以及“DoS”虽然描述不同，但是三者均具有相同的含义，则，可以将这三种描述整合为其中一种描述，如“Denial of Service”等。当然，致使不同描述具有相同的含义原因存在多种，比如可能是学科、认知、个人习惯的差异等，在此不作过多赘述。

为了解决这个问题，本方案利用自然语言处理技术，对自然语言描述的安全信息进行处理，自动化地提取出有价值的威胁情报以进行描述和信息交换。

具体地，可以利用网络安全数据模型对所述原始网络安全数据进行处理。本实施例的网络安全数据模型是一个预先训练好的神经网络模型，该模型通过以下方式训练得到：

通过网络安全数据模型对所述原始网络安全数据进行处理，提取出原始网络安全数据生成实体关系组，所述实体关系组包括从所述原始网络安全数据中提取出网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系。

以“面向生产环境的情报威胁处理工具包”为例，首先需要切词，将整个句子切分为多个词组，然后提取每个词组的词性，最后在提取词组之间的关系关系。上面的句子可以切词为“面向/生产环境/的/情报/威胁/处理/工具包”，“面向”是动词，“生产环境”是名词，“的”是连词，“情报”是名词，“威胁”是动词，“处理”是动词，“工具包”是名词，“面向”和“生产环境”之间是动宾关系，“面向”和“的”之间是右附加关系，“面向”和“情报”之间是定中关系，“情报”和“威胁”之间是主谓关系，“威胁”和“处理”是动宾关系，“处理”和“工具包”是动宾关系。则网络安全实体即为切词后的各词组，网络安全实体的属性即为各词组的词性，网络安全实体间的关联关系即为词组间的逻辑关系。

S103：对所述实体关系组进行融合，生成网络信息安全的知识图谱。

在利用网络安全数据模型对所述原始网络安全数据进行处理，生成实体关系组后，进而将生成的实体关系组进行融合，生成网络信息安全的知识图谱。

作为本公开的一个可选实施例，在上述实施例中，所述原始网络安全数据包括结构化数据、半结构化数据和非结构化数据。例如，语序错误或者语句中带有标点符合，则一般认为是半结构化数据，而对于乱码以及不规范用于则认为是非结构化数据，而对于不存在上述表述问题的语句则认为是结构化数据，因此，利用网络安全数据模型对所述原始网络安全数据进行处理时，只需要对所述原始网络安全数据中的半结构化数据和非结构化数据进行处理。

因此，在利用网络安全数据模型对所述原始网络安全数据进行处理之前，还应当对所述原始网络安全数据进行结构化识别，将所述原始网络安全数据划分为结构化数据、半结构化数据和非结构化数据。对所述原始网络安全数据进行结构化识别，也可以利用神经网络模型实现。

如图2所示，为本公开实施例二的网络信息安全的知识图谱的生成方法的流程图。本实施例的方法，可以包括以下步骤：

S201：获取原始网络安全数据，所述网络安全数据为描述网络信息安全的初始信息。

S202：对所述原始网络安全数据进行结构化识别，将所述原始网络安全数据划分为结构化数据、半结构化数据和非结构化数据。

S203：利用网络安全数据模型对所述原始网络安全数据中的半结构化数据和非结构化数据进行处理，生成实体关系组。

上述步骤的具体实现过程可以参见实施例一，这里不再重复赘述。

S204：对所述实体关系组进行聚类分析，将同一聚类中具有不同描述信息的实体关系组进行合并，将不同聚类中具有相同描述信息的实体关系组区分为不同的实体关系组。

在本实施例中，对所述实体关系组进行融合，生成网络信息安全的知识图谱，可以具体为：

对所述实体关系组进行聚类分析，将同一聚类中具有不同描述信息的实体关系组进行合并，将不同聚类中具有相同描述信息的实体关系组区分为不同的实体关系组。根据同一聚类中的实体关系组进行关系推断，建立同一聚类中的实体关系组之间的关联关系。并对融合后得到的知识图谱进行质量评估，并将评估合格后的知识图谱加入到知识库。

S205：对知识库中的原知识图谱进行更新和扩展，建立新知识图谱和原知识图谱之间的关联关系，并将满足预设条件的新知识图谱和原知识图谱进行融合。

本实施例的方法，能够取得与上述实施例相类似的技术效果，这里不再重复赘述。

如图3所示，为本公开实施例三的网络信息安全的知识图谱的生成方法的一个具体实例的流程框图，作为本公开的一个具体实施例，本实施例的网络信息安全的知识图谱的生成方法，主要可以分为以下几个阶段：

1、数据获取阶段：即上述实施例中的获取原始网络安全数据，在获取到原始网络安全数据后，需要对所述原始网络安全数据进行结构化识别，将所述原始网络安全数据划分为结构化数据、半结构化数据和非结构化数据。

2、信息获取阶段：对于结构化识别后的半结构化数据和非结构化数据，抽取实体关系组，所述实体关系组包括从所述原始网络安全数据中提取出网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系。

3、信息融合阶段：将抽取出来的实体关系组、结构化数据和第三方知识库中的知识图谱进行融合。

4、知识处理阶段：根据融合都得到的知识图谱，进行歧义消除，即对所述实体关系组进行聚类分析，将同一聚类中具有不同描述信息的实体关系组进行合并，将不同聚类中具有相同描述信息的实体关系组区分为不同的实体关系组。然后进行知识匹配，即根据同一聚类中的实体关系组进行关系推断，建立同一聚类中的实体关系组之间的关联关系。并根据知识匹配后的知识图谱推断出新的知识。建立知识实体，并对融合后得到的知识图谱进行质量评估，并将评估合格后的知识图谱加入到知识库，同时根据更新的知识对知识图谱进行更新。

5、知识图谱生成阶段：该阶段为生成知识图谱的生成阶段。

6、知识应用阶段：在生成知识图谱后，可以利用生成的知识图谱进行知识比对(即和其他知识图谱中的知识进行对比)，知识证明和知识检索(即基于一个实体和与该实体直接或间接存在关联关系的其他实体进行其他实体或者关联关系的检索)，以及知识更新(即当发现本知识图谱中不包含的信息时，对本知识图谱进行更新)。

本实施例的方法，通过采用神经网络模型对原始网络安全数据进行处理，生成实体关系组，并对实体关系组进行融合，生成网络信息安全的知识图谱，能够实现知识图谱在交换时更好的互相兼容，同时能够使用通用信息处理技术对自然语言描述的信息进行分析处理。

本公开还提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

此外，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图4示出了本公开实施例四的网络信息安全的知识图谱的生成设备的结构示意图。图4示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统包括中央处理单元(CPU)401，其可以基于存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM403中，还存储有系统操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也基于需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，基于需要安装在驱动器410上，以便于从其上读出的计算机程序基于需要被安装入存储部分408。

特别地，基于本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种网络信息安全的知识图谱的生成方法，其特征在于，包括：

利用网络安全数据模型对所述原始网络安全数据中的半结构化数据和非结构化数据进行处理，生成实体关系组，所述原始网络安全数据包括结构化数据、半结构化数据和非结构化数据，所述实体关系组包括从所述原始网络安全数据中提取出网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系，其中，所述网络安全数据模型通过以下方式训练得到：以大量原始网络安全数据作为训练样本，标识出所述训练样本的网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系；然后将所述训练样本输入到预先建立的神经网络模型，对所述训练样本进行学习，输出训练样本中的网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系，当输出结果与标识结果的相似度大于预设阈值时，对神经网络的模型的参数进行修正；重复上述过程，直到当输出结果与标识结果的相似度小于所述预设阈值；

2.根据权利要求1所述的网络信息安全的知识图谱的生成方法，其特征在于，还包括：

3.根据权利要求2所述的网络信息安全的知识图谱的生成方法，其特征在于，所述对所述实体关系组进行融合，生成网络信息安全的知识图谱，包括：

4.根据权利要求3所述的网络信息安全的知识图谱的生成方法，其特征在于，还包括：

5.根据权利要求4所述的网络信息安全的知识图谱的生成方法，特征在于，还包括：

6.根据权利要求5所述的网络信息安全的知识图谱的生成方法，其特征在于，还包括：

7.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～6中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～6中任一项所述的方法。