CN112765366A

CN112765366A - 基于知识图谱的apt组织画像构建方法

Info

Publication number: CN112765366A
Application number: CN202110100307.9A
Authority: CN
Inventors: 任传伦; 郭世泽; 张先国; 冯景瑜; 臧浩; 夏建民; 俞赛赛; 刘晓影; 乌吉斯古愣; 孟祥頔
Original assignee: CETC 15 Research Institute; Xian University of Posts and Telecommunications
Current assignee: CETC 15 Research Institute; Xian University of Posts and Telecommunications
Priority date: 2021-01-24
Filing date: 2021-01-24
Publication date: 2021-05-07

Abstract

本发明公开了一种基于知识图谱的APT组织画像构建方法，通过大量准确收集APT组织威胁情报信息，通过自然语言处理的方式，把采集到的非结构化数据以及半结构化数据转化为可以使用的结构化数据关键情报，将关键情报以三元组的形式提取并保存，搭建APT威胁情报图数据库，通过图数据库的情报存储，构建APT组织画像图谱。本发明方法的具体步骤包括，综合性的数据收集，其具体包括：web端威胁情报捕获；基于邮件端自动解析的数据采集；基于开源威胁情报共享平台的数据采集；APT组织画像图谱构建，包括数据处理与数据储存。本发明将知识图谱技术与APT威胁情报结合起来，通过知识图谱统一描述资产，威胁，漏洞，流量和其他信息，从而实现APT的快速发现。

Description

基于知识图谱的APT组织画像构建方法

技术领域

本申请涉及APT攻击溯源技术领域，具体涉及一种基于知识图谱的APT组织画像构建方法。

背景技术

APT攻击是当前网络领域面临的严重威胁，而应对APT攻击的能力是网络安全的重要保证。目前，通过单次数据分析实现APT检测的可能性较低，因此有必要探索多维联合分析方法。知识图谱可以统一描述资产，威胁，漏洞，流量，日志和其他信息，打破数据鸿沟，并进一步使用知识推理来分析异常行为，从而实现APT的快速发现。

对于APT的相关数据采集，一般由网络威胁情报平台中的威胁信息做为信息中心，将所有威胁情报格式符合的威胁情报录入建立的数据库，并通过关键字查询等方式向用户提供查询服务。也即是说，相关技术通常由网络威胁情报平台中的情报建立中心化系统。然而，这种系统具有信息闭塞、相关APT情报追溯难、无直接效益产出、数据滥用等缺陷。

目前构建APT组织画像的通常方法主要是采用分析收集用户信息和用户行为来生成用户标签，这种方式因为效率低，数据结构化程度低，难以应对当前手段复杂的网络攻击，亟需一种精练的数据使用方法，便于对威胁情报数据的利用，以达到网络安全方面的高效APT攻击响应的能力。

发明内容

针对目前APT组织画像的构建方法存在的效率低、数据结构化程度低、难以应对当前手段复杂的网络攻击的问题，本发明公开了一种基于知识图谱的APT组织画像构建方法，其包括，

综合性的数据收集；

APT组织画像图谱构建，包括数据处理与数据储存。

对于综合性的数据收集，其具体包括：

web端威胁情报捕获；

基于邮件端自动解析的数据采集；

基于开源威胁情报共享平台的数据采集。

所述的web端威胁情报捕获，针对的是以网页形式发布的威胁情报，利用程序或者脚本模仿网站请求获取网站数据。

所述的web端威胁情报捕获，采用基于信息捕获的网络空间安全威胁情报收集方法，针对威胁情报源网站设计的反捕获策略进行对抗，以获取网站内容。所使用的对抗方法具体包括：

基于IP检测或时间间隔检查的防爬机制，获取待捕获网页数据包头中每个参数的值，并将其添加到数据包头中；同时，对该网页脚本设置代理IP，设置请求时间间隔，对目标服务器每请求若干次后，更改一次网页脚本IP；

针对动态网站的反爬机制，使用Firebug或HttpFox分析网络请求，找到Ajax请求，分析响应的特定参数和特定含义，使用请求或使用urllib2库模拟Ajax请求，并通过网页给出的反馈分析其json格式的响应数据，若该反馈成功返回所需要的参数，便收集该数据。

所述的基于邮件端自动解析的数据采集，使用邮箱订阅开源威胁情报电子邮件，编写邮件用户传递代理作为客户端，并将接收的开源威胁情报电子邮件从邮件用户传递代理发送到用户的计算机或手机。

使用电子邮件模块解析原始文本，然后还原电子邮件的内容，最后提取所需的威胁情报。通过自然语言处理技术处理电子邮件原始文本的非结构化或半结构化数据，对经过处理的数据进行解析并清理，最终提取为结构化数据。

所述的基于开源威胁情报共享平台的数据采集，将从开源威胁情报共享平台获取的数据与常规威胁情报供应获得的数据(如前两种方法获取到的数据)进行比较。

将从开源威胁情报共享平台中获取到的数据与本地情报库进行数据比对，首先将该数据进行结构化处理，从数据库索引相同实体的信息，若不存在该类信息，则直接将结构化处理后的数据入库，若存在该类信息，将进行模糊比对，选择其中正确的数据存入数据库。

所述的APT组织画像图谱构建，包括数据处理与数据储存；

所述的数据存储，包括基于资源描述框架(Resource Description Framework，RDF)的存储和基于图数据库的存储。基于RDF的存储以三元组的方式来存储数据而不包含该数据的属性信息，基于图数据库的存储以属性图为基本的表示形式。基于图数据库的存储采用Neo4j图形数据库。

所述的数据处理，其具体步骤包括：

S1，实体命名识别，从文本数据集中识别出命名实体。采用基于规则的方法、统计机器学习方法和开放领域的信息抽取方法进行识别。

S2，关系抽取，文本语料库由实体抽取，产生一系列离散的命名实体。从相关语料库中提取实体之间的相关关系，通过这些关系将实体(概念)联系起来，形成知识网络结构，关系抽取所采用的方法包括人工构造语法和语义规则，统计机器学习，开放域的关系抽取技术。

S3，属性抽取，从不同的信息源中获取特定实体的属性信息。

S4，实体识别，用于解决同名实体产生的歧义问题。具体地，是基于word2vec模型和GloVe模型，使用海量数据预训练一个字符级别模型，使用word2vec/glove模型获取字符序列的低维向量，参与训练Bi-LSTM与CRF结合模型，利用训练好的Bi-LSTM与CRF结合模型进行实体识别。

S5，共指消解，用于解决多个指称项对应于同一实体对象的问题。共指消解的表达方式，包括对象对齐、实体匹配和实体同义。采用neuralcoref与spaCy模块来完成共指消解过程，将语料作为spacy.load函数的参数，得到共指消解的返回结果。

将综合性的数据收集获取到的数据，按步骤S1至S5进行处理，通过步骤S1到步骤S3可得到初步“实体-关系-属性”三元组形式的结构化数据，经过步骤S4至步骤S5进行消解冗余实体，最终将非结构化数据与半结构化的APT组织数据转化为图数据库可存储的三元组形式数据，并将该三元组形式数据存入图数据库，最终完成APT组织画像的知识图谱构建。

本发明的有益效果为：

一、通过多个维度实现APT威胁情报的搜集工作，使得威胁情报数据更加全面、安全、可信，又联合了知识图谱技术，避免了信息闭塞、相关APT情报追溯难、无直接效益产出、数据滥用等缺陷。

二、将知识图谱技术与APT威胁情报结合起来，多维联合分析方法，通过知识图谱统一描述资产，威胁，漏洞，流量和其他信息，打破数据鸿沟，更好的利用数据，从而实现APT的快速发现。

附图说明

图1是本发明的数据收集方法中web端威胁情报捕获技术的流程示意图；

图2是本发明的数据收集方法中邮件端自动解析的数据采集技术的流程示意图；

图3是本发明的APT组织画像在APT攻击响应上的应用图谱示例图。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

本实施方式提供一种APT组织画像图谱构建方法。所述构建方法基于情报数据收集方法，通过大量准确收集APT组织威胁情报信息，通过自然语言处理的方式，把采集到的非结构化数据以及半结构化数据转化为可以使用的结构化数据关键情报，将关键情报以三元组的形式提取并保存，搭建APT威胁情报图数据库，通过图数据库的情报存储，构建APT组织画像图谱。

本实施方式提供一种APT组织画像在APT攻击响应上的应用。所述应用通过信息提取、知识融合和知识推理的过程，将知识图谱在不同地方以不同形式表达的信息进行关联和融合，以形成统一的高质量知识集，然后基于现有知识进行推理以探索潜力。同时，从知识中产生新知识，以实现安全情报分析的情报。

本发明公开了一种基于知识图谱的APT组织画像构建方法，其包括，综合性的数据收集；

APT组织画像图谱构建，包括数据处理与数据储存。

对于综合性的数据收集，其具体包括：

web端威胁情报捕获；

基于邮件端自动解析的数据采集；

基于开源威胁情报共享平台的数据采集。

所述的web端威胁情报捕获，针对的是以网页形式发布的威胁情报，这些威胁情报是外部威胁情报的大量、主要来源，是威胁情报库中必不可少的部分。由于目前威胁情报的商业性较强，针对这种情况，利用程序或者脚本模仿网站请求获取网站数据。图1是本发明的数据收集方法中web端威胁情报捕获技术的流程示意图。

所述的web端威胁情报捕获，采用基于信息捕获的网络空间安全威胁情报收集方法，针对威胁情报源网站设计的反捕获策略进行对抗，以获取网站内容。互联网上有许多公共威胁情报来源。收集者可以使用网络爬网技术来获取相关数据。但是，大多数网站都会设置某种反捕获机制，捕获时需要伪装以抵抗现有的反捕获机制。表1是本发明的数据收集方法中web端威胁情报捕获技术方案表。

表1 web端威胁情报捕获技术方案表

针对现有站点采用的典型反捕获机制，相比较常规的数据捕获技术，捕获系统更加稳定，可以应对更加复杂的场景，所使用的对抗方法具体包括：

针对动态网站的反爬机制，使用Firebug或HttpFox分析网络请求，找到Ajax请求，分析响应的特定参数和特定含义，使用请求或使用urllib2库模拟Ajax请求，并通过网页给出的反馈分析其json格式的响应数据，若该反馈成功返回所需要的参数，便收集该数据。例如分析一动态页面，通过分析爬虫第一次爬取的页面，使用正则表达式搜索“下滑”等文字，若存在，则易知该网页存在可能为动态页面，需要针对分析，然后打开该页面，找到“下滑”这个事件，通过Firebug等页面元素审查工具定位该事件所在源代码位置，取该事件名称，将该站点加入动态网站池，在爬虫中添加触发该事件的代码，即第二次自动爬取该网站数据时，可以模拟点击此事件，从而获取完整的页面，从而爬取该情报。

所述的基于邮件端自动解析的数据采集，使用邮箱订阅开源威胁情报电子邮件，编写邮件用户传递代理作为客户端，并将接收的开源威胁情报电子邮件从邮件用户传递代理发送到用户的计算机或手机。接收邮件最常用的协议是邮箱协议3.0，然后通过编程语言实现自动接收电子邮件。图2是本发明的数据收集方法中邮件端自动解析的数据采集技术的流程示意图。

但是，此时接收到的电子邮件的内容是电子邮件的原始文本，因此使用电子邮件模块解析原始文本，然后还原电子邮件的内容，最后提取所需的威胁情报。由于原始文本是非结构化数据或者半结构化数据，所以需要通过自然语言处理技术处理电子邮件原始文本的非结构化或半结构化数据，对经过处理的数据进行解析并清理，最终提取为结构化数据。

基于大量威胁数据的威胁情报可以预测组织将面临的即将到来或潜在的威胁，因此其也是威胁情报收集中不可或缺的一部分。开源威胁情报共享平台是指对公开的威胁信息进行处理，以实现对威胁攻击事件的预测。这些威胁情报共享平台上的数据是开源的，可以通过界面直接在本地获取。但是，恰恰是因为该平台是开源的并且是共享的，所以它对于注册该平台的任何个人或组织都是开源的，其中还包括恶意组织。因此，需要将从该平台获取的数据与常规威胁情报供应(如前两种方法获取到的数据)进行比较，以提高威胁情报的可靠性。

以ThreatIngestor威胁情报提取聚合平台为例，该平台易于扩展，并且能够从多个威胁情报feed收集并汇聚威胁情报信息以及入侵威胁指标IoC。该平台整合了ThreatKB和MISP，并且可以利用SQS、Beanstalk和自定义插件来跟很多现有的工作流实现无缝接入。

利用ThreatIngestor威胁情报提取聚合平台进行数据采集，ThreatIngestor通过python模块进行安装和配置，选择监控Beanstalkwork queues、Git repositories、GitHubrepository search、RSS feeds、Amazon SQS queues、Twitter、Generic web pages等以及其他常见威胁情报源。除此之外，还可提取类似恶意IP地址、恶意域名和YARA签名等更有价值的信息，并将其发送至其他的系统进行更加深入的分析。

但由于目标威胁情报源不是完全可信的，需要将从开源威胁情报共享平台中获取到的数据与本地情报库进行数据比对，首先将该数据进行结构化处理，从数据库索引相同实体的信息，若不存在该类信息，则直接将结构化处理后的数据入库，若存在该类信息，将进行模糊比对，选择其中正确的数据存入数据库。

所述的APT组织画像图谱构建，包括数据处理与数据储存；

所述的数据存储，包括基于资源描述框架(Resource Description Framework，RDF)的存储和基于图数据库的存储。基于RDF的存储的一个重要的设计原则是数据的易发布以及共享，图数据库则把重点放在了高效的图查询和搜索上。基于RDF的存储以三元组的方式来存储数据而不包含该数据的属性信息，基于图数据库的存储以属性图为基本的表示形式，所以实体和关系可以包含属性，这就意味着更容易表达现实的业务场景。

由于常见的关系型数据库，诸如MySQL之类不能很好的体现数据的这些特点，因此基于图数据库的存储采用Neo4j图形数据库。Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络(从数学角度叫做图)上而不是表中，该方案非常契合知识图谱的储存思路，可以提高管理人员的使用效率。

数据处理的困难在于处理非结构化数据。所述的数据处理，其具体步骤包括：

S1，实体命名识别，从文本数据集中识别出命名实体。实体抽取的质量(准确率和召回率)对后续知识获取的效率和质量有很大的影响，是信息抽取中最基本、最关键的部分。采用基于规则的方法、统计机器学习方法和开放领域的信息抽取方法进行识别。

S2，关系抽取，文本语料库由实体抽取，产生一系列离散的命名实体。为了获取语义信息，需要从相关语料库中提取实体之间的相关关系，通过这些关系将实体(概念)联系起来，形成知识网络结构，关系抽取所采用的方法包括人工构造语法和语义规则，统计机器学习，开放域的关系抽取技术。

S3，属性抽取，从不同的信息源中获取特定实体的属性信息。比如，从网络公开信息中获取一个公众人物的昵称、生日、国籍、学历等信息。属性提取技术可以从各种数据源中收集这些信息，实现对实体属性的完整描述。

S4，实体识别，用于解决同名实体产生的歧义问题。例如“张三”(指称项)可以对应于作为律师的张三这个实体，也可以对应于作为法官的张三这个实体。具体地，是基于word2vec模型和GloVe模型，使用海量数据预训练一个字符级别模型，使用word2vec/glove模型获取字符序列的低维向量，参与训练Bi-LSTM与CRF结合模型，利用训练好的Bi-LSTM与CRF结合模型进行实体识别。

将综合性的数据收集获取到的数据，按步骤S1至S5进行处理，通过步骤S1到S3可得到初步“实体-关系-属性”三元组形式的结构化数据，经过步骤S4至步骤S5进行消解冗余实体，最终将非结构化数据与半结构化的APT组织数据转化为图数据库可存储的三元组形式数据，并将该三元组形式数据存入图数据库，最终完成APT组织画像的知识图谱构建。

图3给出了本实施方式提供的一种知识图谱在APT攻击响应上的应用结果。其中，本发明基于利用知识图谱构建成功的APT组织画像，从主体、事件、人、物的语义层次构建智能关系，并根据设定的规则进行挖掘，寻找线索，实现发起攻击的APT组织团伙的智能分析和隐藏组织的发现，从而建立一个详细描述敌人信息的画像，显示攻击者的全貌，实现更精确的攻击追踪。

利用APT组织画像在情报数据库中查找相关信息是一种应用。准确地发现不同类型的信息将减少情报分析的工作量。利用知识地图将搜索作为实体搜索而不是简单的字符串搜索，构建知识级查询系统，可提高智能查询结果的相关性和查询效率。图3是在知识聚合以及知识抽取后，建立的“海莲花”组织画像图谱，在发现攻击时，可以通过在图谱中搜索如已知恶意文件MD5、攻击特征等IOC信息，检索到该APT组织后，可以通过研究该组织常用攻击流程，以及过往该组织完成的攻击事件，来进行针对性的安全防御，使得安全响应更加高效。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于知识图谱的APT组织画像构建方法，其特征在于，其包括，

综合性的数据收集，其具体包括：web端威胁情报捕获；基于邮件端自动解析的数据采集；基于开源威胁情报共享平台的数据采集；

APT组织画像图谱构建，包括数据处理与数据储存。

2.如权利要求1所述的基于知识图谱的APT组织画像构建方法，其特征在于，对于综合性的数据收集，所述的web端威胁情报捕获，针对的是以网页形式发布的威胁情报，利用程序或者脚本模仿网站请求获取网站数据；所述的web端威胁情报捕获，采用基于信息捕获的网络空间安全威胁情报收集方法，针对威胁情报源网站设计的反捕获策略进行对抗，以获取网站内容；所使用的对抗方法具体包括：基于IP检测或时间间隔检查的防爬机制，获取待捕获网页数据包头中每个参数的值，并将其添加到数据包头中；同时，对该网页脚本设置代理IP，设置请求时间间隔，对目标服务器每请求若干次后，更改一次网页脚本IP；针对动态网站的反爬机制，使用Firebug或HttpFox分析网络请求，找到Ajax请求，分析响应的特定参数和特定含义，使用请求或使用urllib2库模拟Ajax请求，并通过网页给出的反馈分析其json格式的响应数据，若该反馈成功返回所需要的参数，便收集该数据。

3.如权利要求1所述的基于知识图谱的APT组织画像构建方法，其特征在于，对于综合性的数据收集，所述的基于邮件端自动解析的数据采集，使用邮箱订阅开源威胁情报电子邮件，编写邮件用户传递代理作为客户端，并将接收的开源威胁情报电子邮件从邮件用户传递代理发送到用户的计算机或手机；使用电子邮件模块解析原始文本，然后还原电子邮件的内容，最后提取所需的威胁情报；通过自然语言处理技术处理电子邮件原始文本的非结构化或半结构化数据，对经过处理的数据进行解析并清理，最终提取为结构化数据。

4.如权利要求1所述的基于知识图谱的APT组织画像构建方法，其特征在于，对于综合性的数据收集，所述的基于开源威胁情报共享平台的数据采集，将从开源威胁情报共享平台获取的数据与常规威胁情报供应获得的数据进行比较；将从开源威胁情报共享平台中获取到的数据与本地情报库进行数据比对，首先将该数据进行结构化处理，从数据库索引相同实体的信息，若不存在该类信息，则直接将结构化处理后的数据入库，若存在该类信息，将进行模糊比对，选择其中正确的数据存入数据库。

5.如权利要求1所述的基于知识图谱的APT组织画像构建方法，其特征在于，所述的数据存储，包括基于资源描述框架的存储和基于图数据库的存储；基于资源描述框架的存储以三元组的方式来存储数据而不包含该数据的属性信息，基于图数据库的存储以属性图为基本的表示形式；基于图数据库的存储采用Neo4j图形数据库。

6.如权利要求1所述的基于知识图谱的APT组织画像构建方法，其特征在于，所述的数据处理，其具体步骤包括：

S1，实体命名识别，从文本数据集中识别出命名实体；采用基于规则的方法、统计机器学习方法和开放领域的信息抽取方法进行识别；

S2，关系抽取，文本语料库由实体抽取，产生一系列离散的命名实体；从相关语料库中提取实体之间的相关关系，通过这些关系将实体联系起来，形成知识网络结构，关系抽取所采用的方法包括人工构造语法和语义规则，统计机器学习，开放域的关系抽取技术；

S3，属性抽取，从不同的信息源中获取特定实体的属性信息；

S4，实体识别，用于解决同名实体产生的歧义问题；具体地，是基于word2vec模型和GloVe模型，使用海量数据预训练一个字符级别模型，使用word2vec/glove模型获取字符序列的低维向量，参与训练Bi-LSTM与CRF结合模型，利用训练好的Bi-LSTM与CRF结合模型进行实体识别；

S5，共指消解，用于解决多个指称项对应于同一实体对象的问题；共指消解的表达方式，包括对象对齐、实体匹配和实体同义；采用neuralcoref与spaCy模块来完成共指消解过程，将语料作为spacy.load函数的参数，得到共指消解的返回结果；

将综合性的数据收集获取到的数据，按步骤S1至S5进行处理，通过步骤S1到步骤S3得到初步“实体-关系-属性”三元组形式的结构化数据，经过步骤S4至步骤S5进行消解冗余实体，最终将非结构化数据与半结构化的APT组织数据转化为图数据库可存储的三元组形式数据，并将该三元组形式数据存入图数据库，最终完成APT组织画像的知识图谱构建。