CN112818131B

CN112818131B - 一种威胁情报的图谱构建方法、系统及存储介质

Info

Publication number: CN112818131B
Application number: CN202110137273.0A
Authority: CN
Inventors: 林家富; 胡逢恺; 陈聪; 方然; 尹明晨
Original assignee: Asiainfo Technologies (chengdu) Inc
Current assignee: Asiainfo Technologies (chengdu) Inc
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2023-10-03
Anticipated expiration: 2041-02-01
Also published as: CN112818131A

Abstract

本发明提供一种威胁情报的图谱构建方法、系统及存储介质，涉及网络安全技术领域。能够有效的解决传统构建方法无法为不同需求的用户提供其关注点的威胁情报的知识图谱的问题。该方法包括：获取包括结构化数据和第一半结构化数据的第一类情报数据和包括第二半结构化数据和非结构化数据的第二类情报数据。根据第一类情报数据的获取方式，基于数据仓库技术，生成第一类情报数据的第一多元组知识。提取第二类情报数据中的第二多元组知识。按照至少一个预设主题将第一多元组知识和第二多元组知识进行归纳分类后，汇入预设主题的知识库中。基于预设主题的知识库，构建至少一个业务应用场景的知识图谱。本发明实施例应用于计算机系统。

Description

一种威胁情报的图谱构建方法、系统及存储介质

技术领域

本发明涉及网络安全技术领域，尤其涉及一种威胁情报的图谱构建方法、系统及存储介质。

背景技术

随着网络技术和信息技术的飞速发展，网络空间安全逐渐成为社会关注的热点和焦点。传统的安全防御技术已经不能满足当前日益复杂的网络安全需求。在此背景下，威胁情报这一新兴技术应运而生。威胁情报描述网络空间中的安全实体及关联关系，能够为威胁响应提供决策依据。为了推动威胁情报的知识搜索、融合以及可视化展示，研究人员将知识图谱运用于威胁情报领域中。传统的威胁情报的图谱构建方法主要是将所有的实体和关系融入到一个图谱中。然而，由于不同需求的用户关注点不同，传统的构建方法无法为不同需求的用户提供其关注点的威胁情报的知识图谱，导致用户的使用体验感不佳。

发明内容

本发明提供一种威胁情报的图谱构建方法、系统及存储介质，能够有效的解决无法为不同需求的用户提供其关注点的威胁情报的知识图谱的问题。

为达到上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种威胁情报的图谱构建方法，该方法包括，获取第一类情报数据和第二类情报数据；第一类情报数据包括结构化数据和第一半结构化数据；第二类情报数据包括第二半结构化数据和非结构化数据；第一半结构化数据为包含预设属性和预设属性类型中至少一项的半结构化数据；第二半结构化数据为属性中包含文本内容的半结构化数据。根据第一类情报数据的获取方式，基于数据仓库技术，生成第一类情报数据的第一多元组知识。提取第二类情报数据中的第二多元组知识。按照至少一个预设主题将第一多元组知识和第二多元组知识进行归纳分类，并将归纳分类后的第一多元组知识和第二多元组知识汇入预设主题的知识库中。基于预设主题的知识库，构建至少一个业务应用场景的知识图谱。

通过上述方法，将包含有预设属性和预设属性类型中至少一项的半结构化数据与结构化数据归为一类，以及将属性中包含文本内容的半结构化数据与非结构化数据归为一类的方式，能够为根据各类型数据构建知识图谱的过程提供便利。另外，将第一类情报数据和第二类情报数据生成的多元组知识进行归纳分类，确定所对应的预设主题的知识库。因此，通过预设主题的知识库的构建，使得后续无论一次或多次建立不同业务应用场景的知识图谱时，只需在预设主题的知识库中将所需业务应用场景对应的内容导入至知识图谱中即可。这样，不仅提高了知识图谱的构建速度；而且，预设主题的知识库的存在，可以提高数据的安全性以及可复用性。此外，通过构建不同业务应用场景的知识图谱。能够为不同需求的用户展示其所关注的业务应用场景的威胁情报的知识图谱。这样，不仅解决了传统方式中将所有的实体和关系融入到一个图谱中，导致用户无法选择性的查看其关注点的威胁情报的知识图谱的问题，提高了用户在查看关于威胁情报的知识图谱的使用体验感。而且，针对性的将知识库中的数据导入至知识图谱中，对知识图谱的维护也较为简单。

可选的，根据第一类情报数据的获取方式，基于数据仓库技术，生成第一类情报数据的第一多元组知识的方法包括：在第一类情报数据的获取方式为定时获取的情况下，基于离线数据仓库技术，生成第一类情报数据的第一多元组知识。

可选的，根据第一类情报数据的获取方式，基于数据仓库技术，生成第一类情报数据的第一多元组知识的方法包括：在第一类情报数据的获取方式为实时获取的情况下，基于实时数据仓库技术，生成第一类情报数据的第一多元组知识。

可选的，提取第二类情报数据中的第二多元组知识的方法包括：采用正则匹配提取第二类情报数据中的第一类实体；基于深度学习识别模型提取第二类情报数据中的第二类实体；第二多元组知识包括第一类实体和第二类实体。

可选的，提取第二类情报数据中的第二多元组知识的方法包括：采用正则匹配提取第二半结构化数据的第一类实体关系；基于深度学习识别模型提取非结构化数据的第二类实体关系；第二多元组知识包括第一类实体关系和第二类实体关系。

第二方面，本发明提供一种威胁情报的图谱构建系统，该系统包括：数据采集模块，用于获取第一类情报数据和第二类情报数据；第一类情报数据包括结构化数据和第一半结构化数据；第二类情报数据包括第二半结构化数据和非结构化数据；第一半结构化数据为包含预设属性和预设属性类型中至少一项的半结构化数据；第二半结构化数据为属性中包含文本内容的半结构化数据。第一知识提取模块，用于根据数据采集模块第一类情报数据的获取方式，基于数据仓库技术，生成第一类情报数据的第一多元组知识。第二知识提取模块，用于提取数据采集模块获取的第二类情报数据中的第二多元组知识。知识存储模块，用于按照至少一个预设主题将第一知识提取模块生成的第一多元组知识和第二知识提取模块提取的第二多元组知识进行归纳分类，并将归纳分类后的第一多元组知识和第二多元组知识汇入预设主题的知识库中。图谱构建模块，用于基于知识存储模块将归纳分类后的多元组知识汇入的预设主题的知识库，构建至少一个业务应用场景的知识图谱。

可选的，第一知识提取模块，具体用于在第一类情报数据的获取方式为定时获取的情况下，基于离线数据仓库技术，生成第一类情报数据的第一多元组知识。

可选的，第一知识提取模块，具体用于在第一类情报数据的获取方式为实时获取的情况下，基于实时数据仓库技术，生成第一类情报数据的第一多元组知识。

可选的，第二知识提取模块，具体用于采用正则匹配提取第二类情报数据中的第一类实体。第二知识提取模块，还用于基于深度学习识别模型提取第二类情报数据中的第二类实体；第二多元组知识包括第一类实体和第二类实体。

可选的，第二知识提取模块，具体用于采用正则匹配提取第二半结构化数据的第一类实体关系。第二知识提取模块，还用于基于深度学习识别模型提取非结构化数据的第二类实体关系；第二多元组知识包括第一类实体关系和第二类实体关系。

第三方面，本发明提供一种威胁情报的图谱构建系统，该威胁情报的图谱构建系统包括存储器和处理器。上述存储器和处理器耦合。该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令。当处理器执行该计算机指令时，威胁情报的图谱构建系统执行如第一方面提供的威胁情报的图谱构建方法。

第四方面，本发明提供一种芯片系统，该芯片系统应用于威胁情报的图谱构建系统；芯片系统包括一个或多个接口电路，以及一个或多个处理器。接口电路和处理器通过线路互联；接口电路用于从威胁情报的图谱构建系统的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令。当处理器执行计算机指令时，威胁情报的图谱构建系统执行如第一方面提供的威胁情报的图谱构建方法。

第五方面，本发明提供一种计算机可读存储介质，该计算机可读存储介质中包括有计算机指令，当计算机指令在威胁情报的图谱构建系统上运行时，使得威胁情报的图谱构建系统实现如第一方面提供的威胁情报的图谱构建方法。

第六方面，本发明提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在威胁情报的图谱构建系统上运行时，使得威胁情报的图谱构建系统执行如第一方面提供的威胁情报的图谱构建方法。

需要说明的是，上述计算机指令可以全部或者部分存储在计算机可读存储介质上。其中，计算机可读存储介质可以与威胁情报的图谱构建系统的处理器封装在一起的，也可以与威胁情报的图谱构建系统的处理器单独封装，本发明对此不作限定。

本发明中第二方面、第三方面、第四方面、第五方面以及第六方面的描述，可以参考第一方面及其各种实现方式中的详细描述；并且，第二方面、第三方面、第四方面、第五方面以及第六方面的有益效果，可以参考第一方面及其各种实现方式中的有益效果分析，此处不再赘述。

在本发明中，上述威胁情报的图谱构建系统的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本发明类似，属于本发明权利要求及其等同技术的范围之内。

本发明的这些方面或其他方面在以下的描述中会更加简明易懂。

附图说明

图1为本申请实施例提供的一种威胁情报的图谱构建方法的流程示意图之一；

图2为本申请实施例提供的一种威胁情报的图谱构建方法的流程示意图之二；

图3为本申请实施例提供的一种威胁情报的图谱构建方法的流程示意图之三；

图4为本申请实施例提供的一种威胁情报的图谱构建方法的流程示意图之四；

图5为本申请实施例提供的一种威胁情报的图谱构建系统的结构示意图；

图6为本申请实施例提供的又一种威胁情报的图谱构建系统的结构示意图；

图7为本申请实施例提供的威胁情报的图谱构建方法的计算机程序产品的结构示意图。

具体实施方式

下面结合附图对本发明实施例提供的一种威胁情报的图谱构建方法、装置及存储介质进行详细地描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本发明的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序。

此外，本发明的描述中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括其他没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

需要说明的是，本发明实施例中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

在本发明的描述中，除非另有说明，“多个”的含义是指两个或两个以上。

可以理解的是，本发明实施例提供的威胁情报的图谱构建方法在实际应用中，具体方法的步骤顺序可以做以调整，本发明实施例对此不做限定。

在介绍本发明实施例之前，首先介绍本发明实施例中涉及到的名词：

1)命名实体识别(named entity recognition，NER)

命名实体识别是指识别文本中具有特定意义的实体，如漏洞、攻击组织、攻击技术、IP地址、邮箱、地理位置等。

2)知识图谱(knowledge graph)

知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱由节点和边组成。节点可以是具体的实体，也可以是抽象的概念，如攻击组织、漏洞、攻击模式等。边可以是节点之间的关系，也可以是节点的属性，如攻击组织利用漏洞，攻击组织使用攻击模式等。

3)威胁情报

威胁情报是某种基于证据的知识，包括上下文、机制、标示、含义和能够执行的建议，这些知识与资产所面临已有的或酝酿中的威胁或危害相关，可用于资产相关主体对威胁或危害的响应或处理决策提供信息支持。

4)自然语言处理(natural language processing，NLP)

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。简单讲就是用计算机来处理、理解以及运用人类语言(如中文、英文等)，它属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。

5)数据仓库(data warehouse，DW)

数据仓库是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

下面将结合附图，对本发明实施例中的技术方案进行描述。

由于传统的威胁情报的图谱构建方法主要是针对性的构建一个实体与关系的提取流程，然后将所有的实体和关系融入一个图谱中。然而，不同需求的用户关注点不同，传统的构建方法无法为不同需求的用户提供其关注点的威胁情报的知识图谱，导致用户的使用体验感不佳。

鉴于此，参照图1，本发明实施例提供一种威胁情报的图谱构建方法，针对不同的业务应用场景构建不同的知识图谱，从而为用户展示不同的威胁情报的知识图谱，使得用户可以选择性的查看其所关注的威胁情报的知识图谱。该方法包括：

S11、获取第一类情报数据和第二类情报数据。

其中，第一类情报数据包括结构化数据和第一半结构化数据；第二类情报数据包括第二半结构化数据和非结构化数据；第一半结构化数据为包含预设属性和预设属性类型中至少一项的半结构化数据；第二半结构化数据为属性中包含文本内容的半结构化数据。

示例性的，可通过公开的漏洞库，Att&ck知识库，失陷指示器(indicator ofcompromise，ioc)情报数据，入侵检测系统(intrusion detection system，IDS)规则库，威胁事件报告，安全博客，web网页等途径采集结构化数据、半结构化数据以及非结构化数据等的开源威胁情报数据。

可选的，将从上述示例中获取的开源威胁情报数据进行数据清洗、去重、异常字符处理后分类，以获取第一类情报数据和第二类情报数据。

S12、根据第一类情报数据的获取方式，基于数据仓库技术，生成第一类情报数据的第一多元组知识。

示例性的，多元组知识包括实体、实体关系和实体属性等。例如，实体有AS(自治系统)、campaign(网络战役)、cent(数字证书)、comain(域名)、hacker Group(黑客组织)、incident(安全事件)、IP(网络地址)、Mail(电子邮件)、Mailbox(电子邮箱)、Organization(组织机构)、Report(安全报告)、Sample(样本)、TTP(战术、技术和程序)、URL(网址)、User(身份标识)、Vulnerability(漏洞)等；实体关系包括use(使用)、authorize(授权)、resolve(解析)、contain(包含)、register(注册)、Host(托管)、launch(发动)、belong(属于)、refer(提及)、ommunicate(通信)、target(攻击)、send(发送)、receive(接收)等。

S13、提取第二类情报数据中的第二多元组知识。

S14、按照至少一个预设主题将第一多元组知识和第二多元组知识进行归纳分类，并将归纳分类后的第一多元组知识和第二多元组知识汇入预设主题的知识库中。

示例性的，预设主题可以是：地理位置、攻击模式、漏洞信息、攻击组织画像、威胁指示器(indicator of compromise，Ioc)情报、威胁事件、以及同义词等主题。但本发明实施例不限于上述的所有主题。

可选的，按照至少一个预设主题将第一多元组知识优先进行归纳分类，并将归纳分类后的第一多元组知识汇入至对应的预设主题的知识库。之后，将第二多元组知识与已建立的至少一个预设主题的知识库进行实体对齐，将第二多元组知识中能够对齐的知识汇入至对应的预设主题的知识库中。另外，将第二多元组知识中无法对齐的知识通过人工审核，选择是否将第二多元组知识中无法对齐的知识丢弃或汇入对应预设主题的知识库中。这样，通过本方法中的知识库来实现实体对齐以及数据融合，能够解决现有的威胁情报的图谱构建方式中不进行知识对齐，导致图库脏数据较多；或者采用人工对齐方式，导致数据量大，均难以工程应用的问题。

S15、基于预设主题的知识库，构建至少一个业务应用场景的知识图谱。

具体的，针对不同的业务应用场景，构建每个业务应用场景所对应的本体模型，将预设主题的知识库中的数据导入至对应业务应用场景的本体模型中，生成至少一个业务应用场景的知识图谱。

其中，可采用百度开源的hugegraph图数据库对应存储每个预设主题的知识，并且采用hbase作为hugagraph的存储后端。

示例性的，在威胁情报领域，知识图谱可以应用于情报判定，态势感知、威胁情报融合及推理，关联分析等。在不同的应用场景，针对不同的使用群体，关注的知识不同。例如，当用户偏向于情报关联分析，则会更加关注威胁主题、攻击手段、基础设施、动机和意图、目标行业以及地理区域等知识。当用户偏向于事件关联分析，则更加关注威胁主题、攻击方法、资产信息、存在隐患及防御手段等知识。再比如当用户侧重于了解样本行为分析，则更加关注样本与其它样本、网站、主机等的关联及访问行为。因此，针对不同的需求，构建不同的知识图谱，以便满足不同人群、不同场景的需求。

在一种实现方式中，结合图1，参照图2，考虑到第一类情报数据的获取方式存在区别。因此，根据不同的获取方式，S12具体由以下S121和S122来实现。

S121、在第一类情报数据的获取方式为定时获取的情况下，基于离线数据仓库技术，生成第一类情报数据的第一多元组知识。

具体的，基于离线数据仓库技术，即就是构建一个离线数据仓库，将定时获取的第一类情报数据输入至离线数据仓库中，以生成第一类情报数据的第一多元组知识。其中，可以采用Spark SQL、Hive等技术构建离线数据仓库。本发明实施例所涉及的离线数据仓库主要包括三层；分别为操作数据层ods、明细数据层dwd以及应用数据层ads。其中，通过离线数据仓库中的操作数据层ods、明细数据层dwd这两层基于定时获取的第一类情报数据生成第一多元组知识。具体包括：

1)在操作数据层ods将第一类情报数据中每份数据按照预设维度存储于不同的第一hive表。

示例性的，以预设维度为ip_analysis为例；在该维度下的第一hive表可以包括：ip地址、威胁分类、扫描服务的全名、扫描服务提供的服务类型、扫描程序返回的原始值、ip信息的最后更新日期、入库时间、数据源id以及数据源时间等内容。当然，上述仅示例性的说明了一种预设维度以及该维度下的第一hive表中所包含的内容。本发明实施例对预设维度以及预设维度的第一hive表中所包含的具体内容不作任何限定。

2)在明细数据层dwd对所有第一hive表中相同维度的数据进行预处理，并汇总至第二hive表中。

实际上，对具有相同维度的第一hive表的内容去重，并在去重后汇总至同一hive表中(即第二hive表)。其中，第二hive表即为明细表，包含基于第一类情报数据获取的实体、实体关系以及实体属性。需要说明的是，明细表中包括但不限于上述三种内容。例如，还可以包括同义词关联数据。

进一步的，在应用数据层ads实现对第一多元组知识的归纳分类，并将归纳分类后的第一多元组知识汇入至预设主题的知识库中。

S122、在第一类情报数据的获取方式为实时获取的情况下，基于实时数据仓库技术，生成第一类情报数据的第一多元组知识。

示例性的，基于实时数据仓库技术，即就是构建一个实时数据仓库，将实时获取的第一类情报数据输入至实时数据仓库中，以生成第一类情报数据的第一多元组知识。其中，可以采用spark streaming和Flink SQL技术构建实时数据仓库。从kafka读取原始数据，通过spark streaming和Flink SQL技术完成实时清洗、解析、校验和维度划分，以获取第一多元组知识。实时数据仓库主要包括两层；分别为操作数据层ods以及应用数据层ads。其中，通过实时数据仓库中的操作数据层ods这一层基于实时获取的第一类情报数据，生成第一多元组知识。这里，实时数据仓库中的操作数据层ods以及应用数据层ads具体应用流程可参照上述的S121中的示例性说明，此处不再赘述。

需要说明的是，离线数据仓库与实时数据仓库中每层的应用流程类似。但在各自的数据仓库中实现每层的应用流程的算法不同。如，离线数据仓库主要采用的是SparkSQL、Hive等技术构建；而实时数据仓库主要采用的是spark streaming和Flink SQL技术构建。

在本实现方式中，考虑到第一类情报数据的获取方式存在定时获取以及实时获取两种方式。因此，针对定时获取方式的第一类情报数据，通过离线数据仓库技术来获取第一多元组知识，将第一类情报数据进行明细划分，以便为后续业务提供查询功能。另外，对时效性要求较高的第一类情报数据，通过实时数据仓库技术来生成第一多元组知识，快速的获取结果，以保证数据的实效性，从而帮助用户更快的做出相关决策。

在另一种实现方式中，结合图1，参照图3，在多元组知识包含实体与实体关系的情况下，可以通过以下方式实现S13。

S131a、采用正则匹配提取第二类情报数据中的第一类实体。

示例性的，第一类实体可以是如ip、domain、url、hash、CVE等实体。

S131b、基于深度学习识别模型提取第二类情报数据中的第二类实体。

其中，第二多元组知识包括第一类实体和第二类实体。

示例性的，第二类实体可以是如威胁组织、攻击模式、攻击组织、地理位置等实体。

另外，深度学习识别模型的构建流程包括：首先将收集的少量威胁情报文本数据进行预处理，除去特殊字符等作为训练数据。再将这部分训练数据作字符级的数据标注，标注完的数据作为训练预料。将训练预料分为三部分，即训练集、验证集、测试集。将训练集输入至基于深度学习算法的识别模型进行训练，验证集和测试集用于对识别模型基于评估指标进行评估，若识别模型评估指标未达到预期，可通过调整参数，继续对模型训练，最终获取深度学习识别模型。其中，评估指标包括正确率、召回率和F1值。

S132a、采用正则匹配提取第二半结构化数据的第一类实体关系。

S132b、基于深度学习识别模型提取非结构化数据的第二类实体关系。

其中，第二多元组知识包括第一类实体关系和第二类实体关系。

进一步的，将提取的实体以及实体关系与己构建的知识图谱中多元组知识进行验证；验证知识图谱中是否己存在该实体，针对己存在的实体验证其实体关系是否冲突以及属性是否完备，完成实体属性的合并以及关系冲突的检测，针对不存在的实体，人工检查实体及关系的正确性，以保证知识的一致性。

其中，实体间冲突判定方式为：在存入一个新的关系时，检测知识图谱中是否己经存在此关系，若己经存在，则发生冲突，需要进一步验证这个关系是否和己经存在的关系是否完全一样，若关系是相同的则不必重复插入，若不同，表示可能是关系所含有的属性不同，需要检查各自所含有的属性是否完备，根据实际情况判断这个新关系是否需要插入。

在本实现方式中，通过将正则匹配与深度学习识别模型结合提取第二类情报数据。不仅能够高效地对多种结构类型的数据提取威胁知识；并提高了威胁情报领域知识图谱构建的效率与准确度。

为了更好的理解，参照图4，本发明实施例对上述方法的整体流程进行示例性说明。主要包括以下四层：

第一层为数据层；在数据层主要对从漏洞库，Att&ck知识库，ioc情报数据，IDS规则库，威胁事件报告，安全博客，web网页等途径采集开源威胁情报数据进行数据清洗、去重、异常字符处理后分类，以获取第一类情报数据和第二类情报数据。

第二层为构建层；在构建层基于数据仓库技术(简称数仓技术)提取第一类情报数据中第一多元组知识；基于正则匹配以及深度学习提取第二类情报数据中的第二多元组知识。

第三层为知识层；在知识层基于第一多元组知识和第二多元组知识构建地理位置库、攻击模式库、漏洞信息库、攻击组织画像库、Ioc情报库、威胁事件库、以及同义词库等至少一个预设主题的知识库。

第四层为智慧层；在智慧层进行实体、实体关系以及实体属性的知识融合。另外，构建至少一个业务应用场景的本体模型，并将知识录入至对应的业务应用场景的本体模型中，以生成至少一个业务应用场景的知识图谱，并展示。此外，在智慧层还可进行知识图谱推理、威胁情报融合以及、情报判定等操作。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

如图5所示，为本申请实施例提供的一种威胁情报的图谱构建系统10的结构示意图。威胁情报的图谱构建系统10用于执行图1所示的威胁情报的图谱构建方法。该威胁情报的图谱构建系统10包括：数据采集模块51、第一知识提取模块52、第二知识提取模块53、知识存储模块54以及图谱构建模块55。

具体地，数据采集模块51，用于获取第一类情报数据和第二类情报数据；第一类情报数据包括结构化数据和第一半结构化数据；第二类情报数据包括第二半结构化数据和非结构化数据；第一半结构化数据为包含预设属性和预设属性类型中至少一项的半结构化数据；第二半结构化数据为属性中包含文本内容的半结构化数据。

第一知识提取模块52，用于基于数据采集模块51第一类情报数据的获取方式，基于数据仓库技术，生成第一类情报数据的第一多元组知识。

第二知识提取模块53，用于提取数据采集模块51获取的第二类情报数据中的第二多元组知识。

知识存储模块54，用于按照至少一个预设主题将第一知识提取模块52生成的第一多元组知识和第二知识提取模块提取的第二多元组知识进行归纳分类，并将归纳分类后的第一多元组知识和第二多元组知识汇入预设主题的知识库中。

图谱构建模块55，用于基于知识存储模块54将归纳分类后的多元组知识汇入的预设主题的知识库，构建至少一个业务应用场景的知识图谱。

可选的，第一知识提取模块52，具体用于在第一类情报数据的获取方式为定时获取的情况下，基于离线数据仓库技术，生成第一类情报数据的第一多元组知识。

可选的，第一知识提取模块52，具体用于在第一类情报数据的获取方式为实时获取的情况下，基于实时数据仓库技术，生成第一类情报数据的第一多元组知识。

可选的，第二知识提取模块53，具体用于采用正则匹配提取第二类情报数据中的第一类实体。

第二知识提取模块53，还用于基于深度学习识别模型提取第二类情报数据中的第二类实体；第二多元组知识包括第一类实体和第二类实体。

可选的，第二知识提取模块53，具体用于采用正则匹配提取第二半结构化数据的第一类实体关系。

第二知识提取模块53，还用于基于深度学习识别模型提取非结构化数据的第二类实体关系；第二多元组知识包括第一类实体关系和第二类实体关系。

这里，本申请实施例描述的系统架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

在一些实施例中，所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。

图6示出了本申请实施例提供一种威胁情报的图谱构建系统的硬件结构示意图。该威胁情报的图谱构建系统包括处理器61，通信线路64以及至少一个收发器(图6中仅是示例性的以包括收发器63为例进行说明)。

处理器61可以包括一个或多个处理单元，例如：处理器61可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，视频处理单元(videoprocessing unit，VPU)控制器，存储器，视频编解码器，数字信号处理器(digital signalprocessor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是威胁情报的图谱构建系统的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器61中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器61中的存储器为高速缓冲存储器。该存储器可以保存处理器61刚用过或循环使用的指令或数据。如果处理器61需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器61的等待时间，因而提高了系统的效率。

在一些实施例中，处理器61可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，通用异步收发传输器(universal asynchronousreceiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processorinterface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serialbus，USB)接口，串行外设接口(serial peripheral interface，SPI)接口等。

通信线路64可包括一通路，在上述组件之间传送信息。

收发器63，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

可选的，该威胁情报的图谱构建系统还可以包括存储器62。

存储器62可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路64与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器62用于存储执行本申请方案的计算机执行指令，并由处理器61来控制执行。处理器61用于执行存储器62中存储的计算机执行指令，从而实现本申请下述实施例提供的点云数据标注方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器61可以包括一个或多个CPU，例如图6中的CPU0和CPU1。

在具体实现中，作为一种实施例，威胁情报的图谱构建系统可以包括多个处理器，例如图6中的处理器61和处理器65。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

图7示意性地示出本申请实施例提供的计算机程序产品的概念性局部视图，所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。

在一个实施例中，计算机程序产品是使用信号承载介质410来提供的。所述信号承载介质410可以包括一个或多个程序指令，其当被一个或多个处理器运行时可以提供以上针对图1描述的功能或者部分功能。因此，例如，参考图1中所示的实施例，S11-S15的一个或多个特征可以由与信号承载介质410相关联的一个或多个指令来承担。此外，图7中的程序指令也描述示例指令。

在一些示例中，信号承载介质410可以包含计算机可读介质411，诸如但不限于，硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等等。

在一些实施方式中，信号承载介质410可以包含计算机可记录介质412，诸如但不限于，存储器、读/写(R/W)CD、R/W DVD、等等。

在一些实施方式中，信号承载介质410可以包含通信介质413，诸如但不限于，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等)。

信号承载介质410可以由无线形式的通信介质413(例如，遵守IEEE802.41标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是，例如，计算机可执行指令或者逻辑实施指令。

在一些示例中，诸如针对图5描述的写数据采集模块51、第一知识提取模块52、第二知识提取模块53、知识存储模块54以及图谱构建模块55可以被配置为，响应于通过计算机可读介质411、计算机可记录介质412、和/或通信介质413中的一个或多个程序指令，提供各种操作、功能、或者动作。

另外，本申请实施例还提供一种芯片系统，该芯片系统应用于威胁情报的图谱构建系统；芯片系统包括一个或多个接口电路，以及一个或多个处理器。接口电路和处理器通过线路互联；接口电路用于从威胁情报的图谱构建系统的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令。当处理器执行计算机指令时，威胁情报的图谱构建系统执行如第一方面提供的威胁情报的图谱构建方法或第一方面中任一种可能的设计方式的威胁情报的图谱构建方法。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种威胁情报的图谱构建方法，其特征在于，包括：

获取第一类情报数据和第二类情报数据；所述第一类情报数据包括结构化数据和第一半结构化数据；所述第二类情报数据包括第二半结构化数据和非结构化数据；所述第一半结构化数据为包含预设属性和预设属性类型中至少一项的半结构化数据；所述第二半结构化数据为属性中包含文本内容的半结构化数据；

根据所述第一类情报数据的获取方式，基于数据仓库技术，生成所述第一类情报数据的第一多元组知识；提取所述第二类情报数据中的第二多元组知识；

按照至少一个预设主题将所述第一多元组知识和所述第二多元组知识进行归纳分类，并将归纳分类后的所述第一多元组知识和所述第二多元组知识汇入所述预设主题的知识库中；

针对不同的业务应用场景，构建每个业务应用场景所对应的本体模型，将所述预设主题的知识库中的数据导入至对应业务应用场景的本体模型中，生成至少一个业务应用场景的知识图谱；

所述根据所述第一类情报数据的获取方式，基于数据仓库技术，生成所述第一类情报数据的第一多元组知识，包括：

在所述第一类情报数据的获取方式为定时获取的情况下，基于离线数据仓库技术，将定时获取的第一类情报数据输入至离线数据仓库中，以生成第一类情报数据的第一多元组知识；其中，所述离线数据仓库包括三层；为操作数据层ods、明细数据层dwd以及应用数据层ads；

基于所述离线数据仓库技术，将定时获取的第一类情报数据输入至离线数据仓库中，以生成第一类情报数据的第一多元组知识，具体包括：

在所述操作数据层ods将第一类情报数据中每份数据按照预设维度存储于不同的第一hive表；在所述明细数据层dwd对所有第一hive表中相同维度的数据进行预处理，并汇总至第二hive表中；在所述应用数据层ads实现对第一多元组知识的归纳分类，并将归纳分类后的第一多元组知识汇入至预设主题的知识库中；

或者，

在所述第一类情报数据的获取方式为实时获取的情况下，基于实时数据仓库技术，生成所述第一类情报数据的第一多元组知识；

所述第一多元组知识包括实体、实体关系和实体属性；其中，所述实体包括：自治系统AS、网络战役campaign、数字证书cent、域名comain、黑客组织hacker Group、安全事件incident、网络地址IP、电子邮件Mail、电子邮箱Mailbox、组织机构Organization、安全报告Report、Sample样本、战术、技术和程序TTP、网址URL、身份标识User、漏洞Vulnerability。

2.根据权利要求1所述的威胁情报的图谱构建方法，其特征在于，所述提取所述第二类情报数据中的第二多元组知识，包括：

采用正则匹配提取所述第二类情报数据中的第一类实体；

基于深度学习识别模型提取所述第二类情报数据中的第二类实体；所述第二多元组知识包括所述第一类实体和第二类实体。

3.根据权利要求1所述的威胁情报的图谱构建方法，其特征在于，所述提取所述第二类情报数据中的第二多元组知识，包括：

采用正则匹配提取所述第二半结构化数据的第一类实体关系；

基于深度学习识别模型提取所述非结构化数据的第二类实体关系；所述第二多元组知识包括所述第一类实体关系和所述第二类实体关系。

4.一种威胁情报的图谱构建系统，其特征在于，包括：

数据采集模块，用于获取第一类情报数据和第二类情报数据；所述第一类情报数据包括结构化数据和第一半结构化数据；所述第二类情报数据包括第二半结构化数据和非结构化数据；所述第一半结构化数据为包含预设属性和预设属性类型中至少一项的半结构化数据；所述第二半结构化数据为属性中包含文本内容的半结构化数据；

第一知识提取模块，用于基于所述数据采集模块所述第一类情报数据的获取方式，基于数据仓库技术，生成所述第一类情报数据的第一多元组知识；

第二知识提取模块，用于提取所述数据采集模块获取的所述第二类情报数据中的第二多元组知识；

知识存储模块，用于按照至少一个预设主题将所述第一知识提取模块生成的所述第一多元组知识和所述第二知识提取模块提取的所述第二多元组知识进行归纳分类，并将归纳分类后的所述第一多元组知识和所述第二多元组知识汇入所述预设主题的知识库中；

图谱构建模块，用于针对不同的业务应用场景，构建每个业务应用场景所对应的本体模型，将所述预设主题的知识库中的数据导入至对应业务应用场景的本体模型中，生成至少一个业务应用场景的知识图谱；

所述第一知识提取模块，具体用于在所述第一类情报数据的获取方式为定时获取的情况下，基于离线数据仓库技术，将定时获取的第一类情报数据输入至离线数据仓库中，以生成第一类情报数据的第一多元组知识；其中，所述离线数据仓库包括三层；为操作数据层ods、明细数据层dwd以及应用数据层ads；

或者，

5.根据权利要求4所述的威胁情报的图谱构建系统，其特征在于，

所述第二知识提取模块，具体用于采用正则匹配提取所述第二类情报数据中的第一类实体；

所述第二知识提取模块，还用于基于深度学习识别模型提取所述第二类情报数据中的第二类实体；所述第二多元组知识包括所述第一类实体和第二类实体。

6.根据权利要求4所述的威胁情报的图谱构建系统，其特征在于，

所述第二知识提取模块，具体用于采用正则匹配提取所述第二半结构化数据的第一类实体关系；

所述第二知识提取模块，还用于基于深度学习识别模型提取所述非结构化数据的第二类实体关系；所述第二多元组知识包括所述第一类实体关系和所述第二类实体关系。

7.一种威胁情报的图谱构建系统，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-3中任一项所述的威胁情报的图谱构建方法。

8.一种计算机可读存储介质，其特征在于，包括指令，当所述指令由处理器执行时，使得所述处理器执行如权利要求1-3中任一项所述的威胁情报的图谱构建方法。