CN110717049B - 一种面向文本数据的威胁情报知识图谱构建方法 - Google Patents

一种面向文本数据的威胁情报知识图谱构建方法 Download PDF

Info

Publication number
CN110717049B
CN110717049B CN201910805363.5A CN201910805363A CN110717049B CN 110717049 B CN110717049 B CN 110717049B CN 201910805363 A CN201910805363 A CN 201910805363A CN 110717049 B CN110717049 B CN 110717049B
Authority
CN
China
Prior art keywords
threat
threat intelligence
entity
graph
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910805363.5A
Other languages
English (en)
Other versions
CN110717049A (zh
Inventor
黄诚
方勇
姜政伟
彭嘉毅
杨悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Institute of Information Engineering of CAS
Original Assignee
Sichuan University
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, Institute of Information Engineering of CAS filed Critical Sichuan University
Priority to CN201910805363.5A priority Critical patent/CN110717049B/zh
Publication of CN110717049A publication Critical patent/CN110717049A/zh
Application granted granted Critical
Publication of CN110717049B publication Critical patent/CN110717049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种面向文本数据的威胁情报知识图谱构建方法。实现了从文本威胁情报数据中自动化提取出关键信息,构建威胁情报知识图谱的功能。提出了一种面向文本数据的威胁情报知识图谱构建方法。该方法首先定义威胁情报领域的本体结构,利用基于多因素的威胁情报命名实体识别模型与基于图神经网络的威胁情报实体关系抽取模型从文本数据中获取威胁情报实体与关系三元组,最后通过图数据库存储信息,构成威胁情报知识图谱。

Description

一种面向文本数据的威胁情报知识图谱构建方法
技术领域
本发明设计一种面向文本数据的威胁情报知识图谱构建系统,通过基于多因素的威胁情报命名实体识别模型与基于图神经网络的威胁情报关系抽取模型提取文本数据中的威胁情报实体与关系三元组,构成威胁情报知识图谱。旨在解决从大量的威胁文本情报中自动化,准确的提取威胁情报命名实体,提取威胁情报实体与关系构成三元组,生成威胁情报知识图谱。
背景技术
随着互联网应用的扩展,各种政企单位的大量业务需要通过直接连接互联网进行工作,然而网络安全态势依然严峻,网络攻击事件频发,威胁着整个网络空间安全。安全从业人员为了从之前的重大网络攻击事件中汲取经验,会仔细分析之前事件,并给出相关报告。另一方面,知识图谱技术在知识搜索、融合、推理及可视化方面都具有优势,已在多个领域成功运用。在此背景下,如何从众多攻击分析报告中自动化地提取关键信息,构建威胁情报知识图谱就成了信息安全领域一个重要的研究课题。
根据威胁情报来源划分,有基于安全设备拦截信息、基于沙盒执行、基于蜜罐技术和基于文本数据等技术研究。相比起其他威胁数据,基于文本数据的威胁情报信息由安全研究人员撰写,有更高的准确度和更丰富的攻击过程信息。所以如何从非结构化的文本信息中提炼出结构化、高质量的威胁情报信息已成为最近的研究热点问题。
知识图谱自2012年由谷歌公司提出后,引起了业界和学术界的广泛关注。目前,知识图谱已成功应用于搜索、社交、企业信息等领域。知识图谱以图形的形式存储实体、属性和关系,其主要优势在于知识搜索、融合、推理及可视化展示。近年来,安全研究人员开始研究如何将知识图谱运用于网络空间安全领域。
威胁情报技术与大数据紧密结合,通过数据指导安全策略与响应。将威胁情报与知识图谱结合,可以利用知识图谱将复杂数据资源整合为语义网络的能力,减少数据复杂度,清晰展现数据的关联。
面向文本数据的威胁情报知识图谱构建主要解决的难点在于以下几点。
(1)针对主流的威胁情报格式内容复杂度高,落地困难的问题,如何根据已有的信息安全领域本体与威胁情报标准,结合威胁情报文本统计信息,设计一个适合于威胁情报领域知识图谱的本体结构。
(2)针对通用领域实体识别模型对威胁情报领域术语识别效果不佳的问题,如何设计模型对不同类型的威胁情报命名实体都能有较好的识别效果。
(3)根据威胁情报本文中的实体关系特点,如何利用多元语言学信息进行威胁情报实体关系抽取。
发明内容
本发明是实现一套面向文本数据的威胁情报知识图谱构建模型,该模型以互联网上公开的威胁情报文本为原始数据,通过基于多因素的威胁情报命名实体识别模型与基于图神经网络的威胁情报实体关系抽取模型,得到威胁情报文本的实体与关系三元组,再将这些三元组存入图数据库中,生成威胁情报领域知识图谱。
本发明提出的面向文本数据的威胁情报知识图谱构建的具体方法如下:
1)从互联网中收集由安全研究人员撰写,具有高准确度和丰富攻击过程信息的开源威胁情报文本;
2)将从互联网上获取到的开源威胁情报文本进行文本分类与清洗;
3)对清洗后的开源威胁情报文本数据进行半自动标注;
4)通过上述一系列方法,最终形成威胁情报文本语料库;
5)依据威胁情报领域的特征与规则,自顶向下地创建威胁情报领域本体结构,对威胁情报本体提出6个威胁信息组件:安全事件、威胁主体、攻击指标、可观测对象、攻击方法和攻击目标;
6)本发明中指定:安全事件为本体核心;可观测对象是可以用来作为攻击指标的实体;攻击方法包含攻击者使用的攻击方式;威胁主体包括攻击者相关的人物、组织、地点和攻击者使用的可观测对象;攻击目标包含被攻击对象相关的人物、地点、组织和被攻击对象的系统组件与可观测对象;
7)本发明中指定的命名实体关系类型为:包含可观测对象、利用、攻击、包含漏洞;
8)根据威胁情报领域命名实体的构成特点,使用分别使用三种适合的方法从文本中提取命名实体,三种具体的方法分别为:
9)基于规则模板的方法,提取IP、URL、漏洞编号、邮箱、文件Hash这几类命名实体;
10)基于CRF序列标注模型的方法,提取恶意软件名这类命名实体;
11)基于神经网络模型的方法,提取人名、地名、组织名、系统组件名、攻击方法等命名实体;
12)利用了语言学信息,从开源威胁情报文本中提取依存句法关系与文本邻接关系作为特征;
13)将威胁情报文本的序列关系与句法依存关系特征,使用图神经网络进行训练,抽取出命名实体之间的相互关系;
14)使用图数据库存储威胁情报实体与关系三元组,构成威胁情报知识图谱。
依据上述方法,该发明采用了如下技术方案:面向文本数据的威胁情报知识图谱构建系统主要包括五个部分:数据准备部分、威胁情报命名实体识别部分、威胁情报实体关系抽取部分、主动学习部分、知识图谱存储部分。本发明提出的面向文本数据的威胁情报知识图谱构建系统中应包含如下功能:
1)通过爬虫,人工等多种手段,从互联网中获取开源威胁情报文本;
2)通过自动化与人工方式,对从互联网上获取到的开源威胁情报文本进行文本分类与清洗;
3)通过半自动化方式,对清洗后的开源威胁情报文本数据进行标注,以获取高准确率的样本集合;
4)将已标注的内容形成威胁情报文本语料库;
5)在知识图谱中,本体是用来描述概念的层次与体系的模板,定义了知识图谱中的实体类型,实体属性及实体间的关系类型。威胁情报领域概念繁多,关系复杂,需要将领域概念进行抽象并规范化的本体表达,才能合理正确地利用威胁情报中的威胁主体、攻击指标等概念,进一步对攻击者的行为特征、攻击手段,潜在威胁等有充分认识,防范于未然;
本发明依据威胁情报领域的特征与规则,自顶向下地创建威胁情报领域本体结构,对威胁情报本体提出6个威胁信息组件:安全事件、威胁主体、攻击指标、可观测对象、攻击方法和攻击目标;
6)本发明中包含的威胁信息组件的具体内容为:安全事件为本体核心;可观测对象是可以用来作为攻击指标的实体;攻击方法包含攻击者使用的攻击方式;威胁主体包括攻击者相关的人物、组织、地点和攻击者使用的可观测对象;攻击目标包含被攻击对象相关的人物、地点、组织和被攻击对象的系统组件与可观测对象;
7)本发明包含的命名实体关系类型为:包含可观测对象、利用、攻击、包含漏洞;
8)威胁情报领域命名实体类别较多,并且不同类型的实体构成特点不一。因此本发明根据威胁情报领域命名实体的构成特点,将实体类别分组,再分别进行命名实体识别。本发明中使用三种方法从文本中提取命名实体,三种具体的方法分别为:
9)基于规则模板的方法,提取IP、URL、漏洞编号、邮箱、文件Hash这几类命名实体;
10)基于CRF序列标注模型的方法,提取恶意软件名这类命名实体;
11)基于神经网络模型的方法,提取人名、地名、组织名、系统组件名、攻击方法等命名实体,由于此类的命名实体没有很明显的构成特征,所以使用深度学习的方法自动提取特征可以更有效地识别出命名实体;
12)本发明可以利用语言学信息,从开源威胁情报文本中提取依存句法关系与文本邻接关系作为特征;
13)本发明可以将威胁情报文本的序列关系与句法依存关系特征使用图神经网络进行训练,抽取出命名实体之间的相互关系;
14)本发明将使用图数据库存储威胁情报实体与关系三元组,构成威胁情报知识图谱,可以形象的展示知识图谱,为分析人员提供辅助。
本发明的预期目标如下:
1)设计一个能够准确表达威胁情报领域实体类型与关系的本体结构;
2)使用基于多因素的威胁情报领域命名实体识别模型能根据威胁情报领域命名实体的构成特点,选择合适的命名实体识别方法,准确,高效地从威胁情报文本中提取出命名实体;
3)使用基于图神经网络的威胁情报领域实体关系抽取模型,能够利用威胁情报文本的序列关系与句法依存关系,抽取出威胁情报命名实体之间的相互关系;
4)通过主动学习算法能够利用主动抽样策略选取值得标注的样本进行手工标注,并以较少的标注代价达到较好的训练结果;
5)能够使用图数据库存储威胁情报文本的实体与关系三元组,并生成威胁情报知识图谱。
附图说明
图1是本发明的系统架构图
图2是本发明的威胁情报本体结构图
图3是本发明的威胁情报命名实体识别流程图
图4是本发明的威胁情报实体关系抽取流程图
图5是本发明的主动学习模块流程图
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚完整的描述。
威胁情报技术被认为是对抗高级持续性攻击的有效手段之一,基于文本数据的威胁情报信息由安全研究人员撰写,有更高的准确度和更丰富的攻击过程信息。所以本发明对于以如何从非结构化的文本信息中提炼出结构化、高质量的威胁情报信息,进行合理展示提出了一种面向文本数据的威胁情报知识图谱构建方法。具体技术方案如下。
如图1所示为系统的主要架构图,详细的介绍了威胁感知系统的相关设计及部署架构。如图1所示,该方法包含以下步骤。
S11:通过爬虫或手工采集方式从互联网中收集开源威胁情报文本。
本实施例中,开源威胁情报文本由安全研究人员撰写,有更高的准确度和更丰富的攻击过程信息。可以利用这些威胁情报信息进行主动或协同式的网络安全威胁评估预警,并指导企业与组织采取合适的安全策略。
S12:将获取到的威胁情报文本进行文本分类与清洗。
本实施例中,开源文本情报来源不同,其中包含了不同主题的文章。本发明通过选取文章主题词、文章长度、字典词密度等作为特征,使用支持向量机算法对收集到的文本情报进行分类。
本实施例中,为了进行后续自动化处理,需要统一威胁情报文本的格式等信息。本发明对采集的博客文章进行格式化清洗,提取文章正文,去除掉HTML标签及代码段,然后去除掉句子长度过小(小于4个单词)或句子长度过大(大于100个单词)的样本。
S13:对清洗后的开源威胁情报文本数据进行半自动标注。
S14:对标注后的威胁情报文本数据形成文本语料库。
S15:如图2所示,依据威胁情报领域的特征与规则,自顶向下地创建威胁情报领域本体结构,对威胁情报本体提出6个威胁信息组件:安全事件、威胁主题、攻击指标、可观测对象、攻击方法和攻击目标。
如图2所示,本实施例中,这些具体的威胁信息组件详情为:安全事件为本体核心进行辐射,可观测对象包括IP、URL、邮箱、文件hash等可以用来作为攻击指标的实体,攻击方法包括攻击者使用的恶意软件与工具,利用的漏洞。威胁主体包括攻击者相关的人物、组织、地点和攻击者使用的可观测对象。攻击目标包含被攻击对象相关的人物、地点、组织和被攻击对象的系统组件与可观测对象。
如图2所示,本实施例中,本文将威胁情报领域命名实体的关系类型总结为:包含可观测对象、利用、攻击、包含漏洞。
S16:如图3所示,根据威胁情报领域命名实体的结构特点,本发明将命名实体分为三类。
本实施例中,由于威胁情报领域命名实体类别较多,并且不同类型的实体构成特点不一,无法提出一种通用的模型提取不同命名实体。因此本文将11种威胁情报领域命名实体类型分为了三组。分别为:IP、URL、漏洞编号、邮箱、文件Hash等可通过模板匹配的命名实体;恶意软件名等命名实体;人名、地名、组织名、系统组件名、攻击方法等命名实体。
S17:如图3所示,基于规则模板的方法,提取IP、URL、漏洞编号、邮箱、文件Hash这几类命名实体。
对于IP、URL、漏洞编号、邮箱、文件hash这几类命名实体,都有非常明显的结构特征,使用正则表达式编写的规则模板就可以有效地进行抽取。
本实施例中,将使用正则表达式提取此类命名实体。
示例地,为了匹配IP命名实体,可以建立如下正则表达式:
(25[0-5]|2[0-4][0-9]|1?[0-9]{1,2})(\.|\[\.\])(25[0-5]|2[0-4][0-9]|1?[0-9]{1,2})(\.|\[\.\])(25[0-5]|2[0-4][0-9]|1?[0-9]{1,2})(\.|\[\.\])(25[0-5]|2[0-4][0-9]|1?[0-9]{1,2})
为了匹配URL命名实体,可以建立如下正则表达式:
[a-z]{3,7}://(?:[a-zA-Z]|[0-9]|[$-+\--_@.&+]|[!*\(\)]|(?:%[0-9a-fA-F][0-9a-fA-F]))+
为了匹配Email命名实体,可以建立如下正则表达式:
[\w\.-]+@[\w\.-]+\.[\w\.-]+|[\w\.-]+\[at\][\w\.-]+\.[\w\.-]+|[\w\.-]+#[\w\.-]+\.[\w\.-]+
为了匹配文件Hash命名实体,可以建立如下正则表达式:
\b[a-fA-F\d]{32}\b|\b[a-fA-F\d]{40}\b|\b[a-fA-F\d]{64}\b
为了匹配漏洞命名实体,可以建立如下正则表达式:
CVE-\d{4,5}-\d{4,7}|EDB-\d{5}
应当理解的是,以上提供的正则表达式仅作为示例,不应解释为对本申请保护范围的限定。
S18:如图3所示,基于CRF序列标注模型的方法,提取恶意软件名这类实体。
恶意软件名这类实体由一些单词组合而成,还会混以大小写字母混用,数字字母混用等,有较为明显的统计特征与字符特征,适合使用基于CRF序列标注模型进行实体识别。
本实施例中,针对恶意软件名这类命名实体,本发明使用条件随机场模型进行命名实体识别。对于条件随机场模型,本发明定义单词本身构成、是否全为大写字母、是否首字母大写、是否除首字母外还有大写字母、是否包含数字、单词词性等作为特征函数。
S19:如图3所示,基于神经网络模型的方法,提取人名、地名、组织名、系统组件名、攻击方法等命名实体。
由于人名、地名、组织名、系统组件名、攻击方法没有很明显的构成特征,所以本发明使用深度学习的方法自动提取特征可以更有效地识别出命名实体。
本实施例中,本发明提出的深度学习模型使用词向量与字符向量作为输入,通过双向LSTM神经网络进行特征学习,最后使用条件随机场约束输出值。本发明使用word2vec算法计算语料文本的词向量表示,利用卷积神经网络自动提取单词局部特征的特性,对单个单词进行卷积与池化操作,提取出字符特征向量,作为神经网络输入的一部分,通过词向量与字符特征相结合提高神经网络模型性能。
S20:本发明利用语言学信息,从开源威胁情报文本中提取依存句法关系与文本临接关系作为特征。
S21:如图4所示,本发明将威胁情报文本的序列关系与句法依存关系作为特征,使用图神经网络过进行训练,抽取命名实体间的关系。
本实施例中,实体关系抽取任务充分利用了语言学信息,将依存句法关系与文本邻接关系构成的图数据结构作为神经网络的输入,利用Graph LSTM图神经网络自动提取关系特征,抽取实体间的相互关系。
示例地,依存句法分析是以词为单位,分析句子成分间的依存关系。依存句法分析可以识别句子的语法结构,包括“主谓”、“谓宾”、“定状”等成分。如对于:The CrouchingYeti uses several Trojans.这句话中,其中“uses”为谓语动词,是依存句法分析树的中心节点;“Crouching”与“Yeti”组合为复合名词(compound),“Trojans”是谓语动词的宾语(dobj)。
本发明将威胁情报语句的文本邻接关系与依存句法关系共同表示为图数据结构,将单词作为图的节点,双向文本序列关系与依存句法关系作为图的边,先构建起威胁情报文本的序列结构循环图。对于循环图,本发明将其拆分为两个子图,分别提取从左向右的关系与从右向左的关系。
S22:本发明使用图数据库存储威胁情报实体与关系三元组,构成威胁情报知识图谱。
本实施例中,本发明通过S11-S20等步骤从威胁情报文本中获取了大量威胁情报命名实体,并且通过基于图神经网络的威胁情报实体关系抽取模型,得到大量威胁情报实体与关系三元组,最终将其存入Neo4j图数据库。
本发明包含如下几个模块:数据准备部分、威胁情报命名实体识别模块、威胁情报实体关系抽取模块、主动学习模块、知识图谱存储模块。
在上述方法中,S11-S14为数据准备部分,S11-S14实在互联网上搜寻开源威胁文本情报的内容,是本发明的数据基础。同时也是处理数据的过程,为后续的实体关系提取与主动学习模块做准备。
S15-S19为威胁情报命名实体识别模块的主要流程,在此模块下,本发明提出的威胁情报本体主要包含6个威胁信息组件:安全事件、威胁主体、攻击指标、可观测对象、攻击方法和攻击目标。同时提出了对这些命名实体提取的方法。
在知识图谱中,本体是用来描述概念的层次与体系的模板,本发明定义了文本威胁情报中知识图谱中的实体类型,实体属性及实体间的关系类型。本发明提出,不同的命名实体存在相互作用关系,对于这些命名实体关系类型总结为:包含可观测对象、利用、攻击、包含漏洞。
本发明的威胁情报命名实体识别模块的处理流程为S17-S19:首先使用基于规则模板的方法和基于CRF序列标注模型的方法识别相应类型的威胁情报命名实体,再根据其结果训练已知实体屏蔽的词向量和基于CNN的字符向量模型,并将这两者结合,作为输入训练基于Bi-LSTM神经网络的威胁情报命名实体识别模型。最后将这三种方法的结构汇总,构成威胁情报中命名实体集。
S20-S21为本发明中,威胁情报实体关系抽取模块在威胁情报命名实体识别的基础上,对命名实体间的关系进行抽取,形成实体与关系的三元组,从而构成威胁情报知识图谱的基本组成单元的过程。本模块的实体关系抽取任务充分利用了语言学信息,将依存句法关系与文本邻接关系构成图数据结构作为神经网络的输入,利用图神经网络自动提取关系特征,抽取实体间的相互关系。
在S21过程中,基于威胁情报命名实体识别模块处理结果,首先将威胁情报文本中的单词处理为词向量。再对威胁情报文本进行依存句法分析,并对依存句法关系进行向量化表示。将依存句法向量与文本邻接向量构成图数据结构,输入到图神经网络中,进行关系特征自动提取,最后使用逻辑回归分类器对图神经网络的输出隐向量进行分类,从而抽取出实体关系。
在S19与S21两个过程中,需要使用收集的开源文本威胁情报数据进行模型训练,在选线过程中需要对不同的训练集进行标注。如果由人工标注将耗时耗力。因此本发明提出主动学习模块,通过主动抽样策略选取值得标注的样本进行手工标注,以此降低标注成本。主动学习模块步骤为:首先随机选取2%的训练集数据进行手工标注,分别训练上文构建的基于Bi-LSTM神经网络的威胁情报命名实体识别模型与基于图神经网络的威胁情报实体关系提取模型。然后利用上述模型以主动抽样方式抽取出2%的训练集数据,对这些数据进行手工标注,然后再次训练模型。迭代此过程,迭代停止条件为:标注数据量达到训练集量的30%。
最终S22过程中为知识图谱的展现,知识图谱存储模块作用为存储与关联威胁情报知识图谱的命名实体三元组,本发明使用Neo4j图数据库实现。使用Neo4j图数据库时,首先查询实体节点是否已存在与数据库中,若存在则直接为已有节点添加关系;若不存在,则创建新的实体节点。
以上对本申请提供了的面向文本数据的威胁情报知识图谱构建系统进行了详细介绍。

Claims (6)

1.一种面向文本数据的威胁情报知识图谱构建方法,其特征包括以下步骤:
A.通过爬虫,人工方式获取信息多种手段,从互联网中收集由安全研究人员撰写,具有高准确度和丰富攻击过程信息的开源威胁情报文本;
B.对来源不同的开源文本信息进行文本分类,通过格式化清洗统一威胁情报文本的格式信息,通过选取文章主题词、文章长度、字典词密度作为特征,并半自动化方式并结合支持向量机算法对清洗后的开源威胁情报文本数据进行分类和标注,最终对标注后的威胁情报文本数据形成文本语料库;
C.定义威胁情报知识图谱的本体构建、威胁实体类型,实体属性及实体间的关系类型的定义方法;
D.定义不同威胁情报本体,威胁情报实体间关系类型;威胁情报本体存在六个威胁信息组件:安全事件、威胁主体、攻击指标、可观测对象、攻击方法和攻击目标;而威胁情报实体间关系类型为:可观测对象、利用、攻击、包含漏洞;
E.定义威胁情报领域命名实体识别方法,使用基于多因素的威胁情报命名实体识别模型提取威胁情报文本中的命名实体;
F.定义威胁情报领域实体关抽取方法,使用基于图神经网络的威胁情报实体关系抽取模型提取文本中的威胁情报实体关系;
G.通过主动学习模块,利用主动抽样策略选取值得标注的样本进行手工标注,迭代训练威胁情报命名实体识别模型与基于图神经网络的威胁情报实体关系提取模型;
H.威胁实体与威胁实体间的关系信息共同构威胁情报实体与关系三元组,知识图谱存储模块使用图数据库存储威胁情报实体与关系三元组,构成威胁情报知识图谱,并通过图数据库进行展示。
2.根据权利要求1所述的面向文本数据的威胁情报知识图谱构建方法,其特征在于:依据威胁情报领域的特征与规则,自顶向下地创建威胁情报领域本体结构,同时指出安全事件为本体核心;可观测对象是用来作为攻击指标的实体;攻击方法包含攻击者使用的恶意软件与工具,利用的漏洞;威胁主体包括攻击者相关的人物、组织、地点和攻击者使用的可观测对象;攻击目标包含被攻击对象相关的人物、地点、组织、被攻击对象的系统组件与可观测对象。
3.根据权利要求2所述面向文本数据的威胁情报知识图谱构建方法,其特征在于:将威胁情报领域实体划分为六个威胁信息组件包含共十一个类别:IP、URL、Email、文件Hash、恶意软件名、漏洞、攻击方法、系统组件、人名、地名、组织名。
4.根据权利要求3所述面向文本数据的威胁情报知识图谱构建方法,其特征在于:根据不同威胁情报领域实体构成特点将实体类别分组,再分别进行命名实体识别。
5.根据权利要求4所述面向文本数据的威胁情报知识图谱构建方法,其特征分别在于三种不同命名实体组的实体识别方法:
I.对于IP、URL、漏洞编号、邮箱、文件Hash,使用正则表达式编写规则模板进行识别;
J.对于恶意软件名,使用条件随机场模型进行命名实体识别,对于条件随机场模型,其特征包括单词本身构成、是否全为大写字母、是否首字母大写、是否除首字母外还有大写字母、是否包含数字、单词词性作为特征函数;
K.对于人名、地名、组织名、系统组件名、攻击方法,使用基于深度学习的方法识别,其流程为:使用word2vec算法将单词转换为词向量,使用卷积神经网络生成字符向量编码,用词向量与字符向量编码作为输入,使用双向LSTM神经网络学习特征,最后使用条件随机场约束输出值。
6.根据权利要求1所述的面向文本数据的威胁情报知识图谱构建方法,其特征在于:基于图神经网络的威胁情报领域实体关系抽取方法,将依存句法关系与文本邻接关系构成的图数据结构作为神经网络的输入,将单词作为图的节点,双向文本序列关系与依存句法关系作为图的边,先构建威胁情报文本的序列结构循环图,对于循环图,将其拆分为两个子图,然后利用Graph LSTM图神经网络自动提取关系特征,抽取实体间的相互关系。
CN201910805363.5A 2019-08-29 2019-08-29 一种面向文本数据的威胁情报知识图谱构建方法 Active CN110717049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910805363.5A CN110717049B (zh) 2019-08-29 2019-08-29 一种面向文本数据的威胁情报知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910805363.5A CN110717049B (zh) 2019-08-29 2019-08-29 一种面向文本数据的威胁情报知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN110717049A CN110717049A (zh) 2020-01-21
CN110717049B true CN110717049B (zh) 2020-12-04

Family

ID=69209536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910805363.5A Active CN110717049B (zh) 2019-08-29 2019-08-29 一种面向文本数据的威胁情报知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN110717049B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI814481B (zh) * 2021-07-20 2023-09-01 奧義智慧科技股份有限公司 用於輔助入侵偵測的資安事件診斷系統與相關的電腦程式產品

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339774B (zh) * 2020-02-07 2022-11-29 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法
CN111414556B (zh) * 2020-02-10 2023-11-21 华北电力大学 一种基于知识图谱的服务发现方法
CN111428511B (zh) * 2020-03-12 2023-05-26 北京明略软件系统有限公司 一种事件检测方法和装置
US11403488B2 (en) 2020-03-19 2022-08-02 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for recognizing image-based content presented in a structured layout
CN111476483A (zh) * 2020-04-07 2020-07-31 南京森林警察学院 基于大数据的缉私案件情报关联方法
CN111431939B (zh) * 2020-04-24 2022-03-22 郑州大学体育学院 基于cti的sdn恶意流量防御方法
CN111552855B (zh) * 2020-04-30 2023-08-25 北京邮电大学 一种基于深度学习的网络威胁情报自动抽取方法
CN111581355B (zh) * 2020-05-13 2023-07-25 杭州安恒信息技术股份有限公司 威胁情报的主题检测方法、装置和计算机存储介质
CN111597352B (zh) * 2020-05-18 2023-05-09 中国人民解放军国防科技大学 结合本体概念和实例的网络空间知识图谱推理方法和装置
CN111597353B (zh) * 2020-05-18 2022-06-07 中国人民解放军国防科技大学 网络空间威胁知识抽取方法和装置
CN111859966B (zh) * 2020-06-12 2022-04-15 中国科学院信息工程研究所 一种面向网络威胁情报的标注语料生成方法及电子装置
WO2021254457A1 (zh) * 2020-06-17 2021-12-23 第四范式(北京)技术有限公司 构建知识图谱的方法及装置、计算机装置及存储介质
CN112214987B (zh) * 2020-09-08 2023-02-03 深圳价值在线信息科技股份有限公司 一种信息提取方法、提取装置、终端设备及可读存储介质
CN112183234A (zh) * 2020-09-10 2021-01-05 北京华跃信息技术有限公司 基于图神经网络的态势感知方法及装置
CN111930965B (zh) * 2020-09-18 2020-12-29 成都数联铭品科技有限公司 一种用于知识图谱的本体结构的构建方法及系统
CN112232149B (zh) * 2020-09-28 2024-04-16 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统
CN112307292A (zh) * 2020-10-30 2021-02-02 中国信息安全测评中心 基于高级持续性威胁攻击的信息处理方法及系统
CN112422537B (zh) * 2020-11-06 2022-01-07 广州锦行网络科技有限公司 基于蜜罐实战生成的网络攻击知识图谱的行为预测方法
CN112380345B (zh) * 2020-11-20 2022-03-29 山东省计算中心(国家超级计算济南中心) 一种基于gnn的covid-19科学文献细粒度分类方法
CN114547290B (zh) * 2020-11-27 2023-07-18 四川大学 一种基于条件共现度的攻击技巧提取方法
CN112769775B (zh) * 2020-12-25 2023-05-12 深信服科技股份有限公司 一种威胁情报关联分析方法、系统、设备及计算机介质
CN112765366A (zh) * 2021-01-24 2021-05-07 中国电子科技集团公司第十五研究所 基于知识图谱的apt组织画像构建方法
CN112818131B (zh) * 2021-02-01 2023-10-03 亚信科技(成都)有限公司 一种威胁情报的图谱构建方法、系统及存储介质
CN112597314A (zh) * 2021-03-03 2021-04-02 中译语通科技股份有限公司 报文信息处理方法及系统
CN113127503A (zh) * 2021-03-18 2021-07-16 中国科学院国家空间科学中心 一种面向航天情报的自动信息提取方法及系统
CN112925805A (zh) * 2021-04-14 2021-06-08 江苏国信安网络科技有限公司 基于网络安全的大数据智能分析应用方法
CN112818126B (zh) * 2021-04-16 2021-08-17 北京智源人工智能研究院 网络安全语料库构建模型的训练方法、应用方法及装置
CN113282759B (zh) * 2021-04-23 2024-02-20 国网辽宁省电力有限公司电力科学研究院 一种基于威胁情报的网络安全知识图谱生成方法
CN113158653B (zh) * 2021-04-25 2021-09-07 北京智源人工智能研究院 预训练语言模型的训练方法、应用方法、装置及设备
CN113364772A (zh) * 2021-06-04 2021-09-07 中孚信息股份有限公司 一种恶意ioc自动采集方法
CN113297578B (zh) * 2021-06-25 2022-03-04 铭台(北京)科技有限公司 基于大数据和人工智能的信息感知方法及信息安全系统
CN113420150A (zh) * 2021-07-06 2021-09-21 北京信安天途科技有限公司 威胁情报知识检测方法、装置、计算设备及存储介质
CN113312486B (zh) * 2021-07-27 2021-11-16 中国电子科技集团公司第十五研究所 一种信号画像构建方法装置、电子设备、存储介质
CN113591465B (zh) * 2021-07-30 2023-05-09 四川大学 基于关联增强的网络威胁情报多维IoC实体识别方法及装置
CN113783876B (zh) * 2021-09-13 2023-10-03 国网数字科技控股有限公司 基于图神经网络的网络安全态势感知方法及相关设备
CN113901466A (zh) * 2021-09-17 2022-01-07 四川大学 面向开源社区的安全工具知识图谱构建方法及装置
CN113901818A (zh) * 2021-09-26 2022-01-07 四川大学 一种面向威胁情报的实体识别及关系抽取方法
CN113886524A (zh) * 2021-09-26 2022-01-04 四川大学 一种基于短文本的网络安全威胁事件抽取方法
CN113918682A (zh) * 2021-10-19 2022-01-11 四川大学 一种涉案财物知识库的知识抽取方法
CN114065767B (zh) * 2021-11-29 2024-05-14 北京航空航天大学 一种威胁情报的分类及演化关系分析方法
CN114579765B (zh) * 2022-03-07 2023-08-15 四川大学 一种基于开源情报分析的网络靶场武器库构建方法
CN114928502B (zh) * 2022-07-19 2022-10-21 杭州安恒信息技术股份有限公司 一种针对0day漏洞的信息处理方法、装置、设备及介质
CN115186109B (zh) * 2022-08-08 2023-05-05 军工保密资格审查认证中心 威胁情报知识图谱的数据处理方法、设备、介质
CN115033894B (zh) * 2022-08-12 2022-12-09 中国电子科技集团公司第三十研究所 一种基于知识图谱的软件组件供应链安全检测方法及装置
CN115687754B (zh) * 2022-10-21 2024-01-23 四川大学 一种基于智能对话的主动式网络信息挖掘方法
CN115622805B (zh) * 2022-12-06 2023-08-25 深圳慧卡科技有限公司 基于人工智能的安全支付防护方法及ai系统
CN115795058B (zh) * 2023-02-03 2023-05-12 北京安普诺信息技术有限公司 一种威胁建模方法、系统、电子设备及存储介质
CN116192537B (zh) * 2023-04-27 2023-07-07 四川大学 一种apt攻击报告事件抽取方法、系统和存储介质
CN116775910B (zh) * 2023-08-18 2023-11-24 北京源堡科技有限公司 基于情报收集的自动化漏洞复现知识库构建方法及介质
CN117240634B (zh) * 2023-11-16 2024-03-29 中国科学技术大学 一种面向MySQL协议的智能安全蜜罐方法、系统及设备
CN117829141A (zh) * 2024-03-06 2024-04-05 广州大学 基于攻击模式的动态实体对齐方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN108073673A (zh) * 2017-05-15 2018-05-25 北京华宇元典信息服务有限公司 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
CN110134959A (zh) * 2019-05-15 2019-08-16 第四范式(北京)技术有限公司 命名实体识别模型训练方法及设备、信息抽取方法及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183869B (zh) * 2015-09-16 2018-11-02 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
US10536472B2 (en) * 2016-08-15 2020-01-14 International Business Machines Corporation Cognitive analysis of security data with signal flow-based graph exploration
US20180159876A1 (en) * 2016-12-05 2018-06-07 International Business Machines Corporation Consolidating structured and unstructured security and threat intelligence with knowledge graphs
US10681061B2 (en) * 2017-06-14 2020-06-09 International Business Machines Corporation Feedback-based prioritized cognitive analysis
CN109922075B (zh) * 2019-03-22 2020-06-02 中国南方电网有限责任公司 网络安全知识图谱构建方法和装置、计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN108073673A (zh) * 2017-05-15 2018-05-25 北京华宇元典信息服务有限公司 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
CN110134959A (zh) * 2019-05-15 2019-08-16 第四范式(北京)技术有限公司 命名实体识别模型训练方法及设备、信息抽取方法及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于机器学习的威胁情报可信分析系统的研究;程翔龙;《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》;20190815;第2019年卷(第8期);论文第11-15,29-35页 *
程翔龙.基于机器学习的威胁情报可信分析系统的研究.《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》.2019,第2019年卷(第8期),论文第11-15,29-35页. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI814481B (zh) * 2021-07-20 2023-09-01 奧義智慧科技股份有限公司 用於輔助入侵偵測的資安事件診斷系統與相關的電腦程式產品

Also Published As

Publication number Publication date
CN110717049A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN110717049B (zh) 一种面向文本数据的威胁情报知识图谱构建方法
CN109948911B (zh) 一种计算网络产品信息安全风险的评估方法
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
US10332012B2 (en) Knowledge driven solution inference
CN109739994B (zh) 一种基于参考文档的api知识图谱构建方法
Jindal et al. Construction of domain ontology utilizing formal concept analysis and social media analytics
Vadapalli et al. Twitterosint: automated cybersecurity threat intelligence collection and analysis using twitter data
US8140464B2 (en) Hypothesis analysis methods, hypothesis analysis devices, and articles of manufacture
Schatten et al. An introduction to social semantic web mining & big data analytics for political attitudes and mentalities research
CN112507076A (zh) 一种语义分析搜索方法、装置及存储介质
Wang et al. Automatic tagging of cyber threat intelligence unstructured data using semantics extraction
Amato et al. An application of semantic techniques for forensic analysis
Hani et al. Fane-kg: A semantic knowledge graph for context-based fake news detection on social media
CN117786088A (zh) 一种威胁的语言模型分析方法、装置、介质及电子设备
Burita et al. K-gate ontology driven knowledge based system for decision support
Kruse et al. Developing a legal form classification and extraction approach for company entity matching: Benchmark of rule-based and machine learning approaches
Yin et al. Research of integrated algorithm establishment of a spam detection system
Shaikh et al. Bringing shape to textual data-a feasible demonstration
Mengoni et al. Empowering COVID-19 fact-checking with extended knowledge graphs
Coneglian et al. Ontological semantic agent in the context of big data: A tool applied to information retrieval in scientific research
Al-Mutairi et al. Predicting the Popularity of Trending Arabic Wikipedia Articles Based on External Stimulants Using Data/Text Mining Techniques
Ganino et al. Ontology population from raw text corpus for open-source intelligence
REISINGER et al. Examining the visibility of social responsibility on the websites of Hungarian state universities
KONYS An approach for ontology-based information extraction system selection and evaluation
Quille et al. Detecting favorite topics in computing scientific literature via Dynamic Topic Modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant