CN111597353B - 网络空间威胁知识抽取方法和装置 - Google Patents

网络空间威胁知识抽取方法和装置 Download PDF

Info

Publication number
CN111597353B
CN111597353B CN202010424101.7A CN202010424101A CN111597353B CN 111597353 B CN111597353 B CN 111597353B CN 202010424101 A CN202010424101 A CN 202010424101A CN 111597353 B CN111597353 B CN 111597353B
Authority
CN
China
Prior art keywords
concept
text
training set
ontology
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010424101.7A
Other languages
English (en)
Other versions
CN111597353A (zh
Inventor
丁兆云
黄松平
刘蔚柯
刘凯
朱承
朱先强
刘斌
汤罗浩
刘毅
周鋆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010424101.7A priority Critical patent/CN111597353B/zh
Publication of CN111597353A publication Critical patent/CN111597353A/zh
Application granted granted Critical
Publication of CN111597353B publication Critical patent/CN111597353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种网络空间威胁知识抽取方法和装置。所述方法包括:根据预先训练的多标签分类器,提取待提取文本的本体概念以及本体概念之间的关系;根据每个本体概念预先训练的多类分类器,提取待提取文本中本体概念对应的实例;根据本体概念对应的实体以及本体概念之间的关系,确定实例之间的关系。采用本方法能够联合隐实体以及本体关系很好的解决了非结构化文本中网络空间威胁知识的抽取问题。

Description

网络空间威胁知识抽取方法和装置
技术领域
本申请涉及知识图谱技术领域,特别是涉及一种网络空间威胁知识抽取方法和装置。
背景技术
全维度、多视角地感知网络空间威胁,特别是智能化、系统性地认知高级可持续威胁攻击关联的战术、战技、漏洞及产品等,有助于提升国家及企业对网络威胁的科学防御能力。为了全面认知网络空间威胁,STIX 2.0(结构化威胁信息表达)从攻击模式、攻击活动、行动等12种构件方面来对网络空间威胁信息进行描述。针对STIX 2.0的结构化语言描述,MITRE公司分别构建了ATT&CK框架(A Globally Accessible Knowledge base of CyberAdversary Tactics and Techniques)、CAPEC攻击模式(Common Attack PatternEnumeration and Classification,通用攻击模式枚举和分类)、CWE(Common WeaknessEnumeration,通用弱点枚举)等知识库,但是MITRE公司构建的知识库仅包括了约40种战术、千级规模的技术与弱点、以及百级规模的攻击模式,忽略了网络空间威胁影响的产品和漏洞等知识;另一方面,互联网中存在大量的开放漏洞库,如美国国家信息安全漏洞库(NVD)、国家信息安全漏洞共享平台(CNVD)等;同时,网络空间产品大多数被通用平台枚举(CPE,Common Platform Enumeration)收录。
目前已有的网络空间威胁知识图谱还不能完整描绘“威胁-弱点-资产”等复杂的关联关系,且存在已收录的知识更新慢、实体关系不全面等问题,因此需要基于网络空间多源情报数据抽取更加丰富的网络空间威胁知识。
目前已有的类如漏洞库(CVE,Common Vulnerability Enumeration,通用漏洞枚举)、攻击模式库(CAPEC,Common Attack Pattern Enumeration and Classification,通用攻击模式枚举和分类)等关联形成的网络空间知识图谱中的实例节点大多数采用统一编码体系,如CAPEC-ID、CVE-ID等,不具备语义特性。
而维基百科、Freebase、DBpedia等开放知识图谱通常具备语义特性,比如实体“邱勇”可以直接显式地从非结构化文本中抽取。但是,网络空间威胁知识图谱区别于开放知识图谱在于实例节点不具备语义特性,而多由编码体系组成,且网络安全威胁报告中通常不会直接提及具体的攻击模式编号(CAPEC-ID)或者漏洞编号(CVE-ID),而由一段非结构化文本描述漏洞、攻击模式、以及漏洞与攻击模式的关系。因此,传统的结构化信息抽取技术不能够很好地适用于网络空间威胁知识图谱的隐实体及关系抽取。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决传统结构化信息抽取技术不能够很好地适用于网络空间威胁知识图谱的隐实体及关系抽取问题的网络空间威胁知识抽取方法和装置。
一种网络空间威胁知识抽取方法,所述方法包括:
根据预先训练的多标签分类器,提取待提取文本的本体概念以及所述本体概念之间的关系;
根据每个所述本体概念预先训练的多类分类器,提取所述待提取文本中本体概念对应的实例;
根据本体概念对应的实体以及所述本体概念之间的关系,确定所述实例之间的关系;
其中,根据预先设置的网络空间威胁知识库,获取概念三元组中头概念对应的头概念ID以及尾概念对应的尾概念ID;从预先设置的开源数据库中搜索同时包含所述头概念ID和所述尾概念ID的非结构化文本,得到文本训练集以及所述文本训练集中每个元素对应的标记标签;从所述文本训练集中提取包含目标概念对的非结构化文本,构建目标概念对对应的多标签分类器的概念训练集,根据所述概念训练集,训练所述多标签分类器;从所述文本训练集中提取包含目标实例的非结构化文本,构建每个目标实例对应的实例训练集,根据所述实例训练集,训练每个所述多类分类器。
在其中一个实施例中,还包括:从预先设置的开源数据库中搜索同时包含所述头概念ID和所述尾概念ID的非结构化文本,得到文本训练集为:
x={D1,D2,…,Dn}
其中,x表示文本训练集,D表示非结构化文本;得到所述文本训练集中每个元素对应的标记标签为:
yi=[Chi,IDhi,Cti,IDti,G]
其中,i=1,2,…,k表示标记标签的总数,Chi表示第i个头概念,IDhi表示第i个头概念ID,Cti表示第i个尾概念,IDti表示第i个尾概念ID,G表示关系判别式,G={0,1},取当G=0表示头概念ID和尾概念ID不存在关系,取G=1表示头概念ID和尾概念ID存在关系。
在其中一个实施例中,还包括:获取目标概念对,从所述文本训练集中提取包含目标概念对的非结构化文本,构建概念数据集;根据所述标记标签,将概念训练集对应的概念标签设置为:
yj=[Chi,Cti,G]:
根据所述概念数据集和所述概念标签,构建目标概念对对应的多标签分类器的概念训练集。
在其中一个实施例中,还包括:从所述文本训练集提取包含所述目标概念对中包括头概念或者尾概念的非结构化文本,构建概念数据负集;根据所述概念数据集、所述概念数据负集以及所述概念标签,构建目标概念对对应的多标签分类器的概念训练集。
在其中一个实施例中,还包括:从所述文本训练集中提取包含目标实例的非结构化文本,构建实例数据集;根据所述实例数据集中实例的数量,构建1×n维标签集合为
y=[1,1,1,…,1]n
根据所述实例数据集合所述标签集合,构建每个目标实例对应的实例训练集。
在其中一个实施例中,还包括:将待提取文本输入预先训练的多标签分类器的BERT预训练模型,得到所述待提取文本中上下文相关的词向量;将所述词向量输入多标签分类器的TextCNN模型,得到所述词向量的语义特征;将所述语义特征输入多标签分类器的RNN模型,输出待提取文本的本体概念以及所述本体概念之间的关系。
在其中一个实施例中,所述多类分类器包括多个二分类器;所述多类分类器为哑编码的多类分类器;还包括:根据每个所述本体概念预先训练的哑编码的多类分类器,提取所述待提取文本中本体概念对应的实例。
一种网络空间威胁知识抽取装置,所述装置包括:
本体概念提取模块,用于根据预先训练的多标签分类器,提取待提取文本的本体概念以及所述本体概念之间的关系;
实例提取模块,用于根据每个所述本体概念预先训练的多类分类器,提取所述待提取文本中本体概念对应的实例;
关系构建模块,用于根据本体概念对应的实体以及所述本体概念之间的关系,确定所述实例之间的关系;
其中,根据预先设置的网络空间威胁知识库,获取概念三元组中头概念对应的头概念ID以及尾概念对应的尾概念ID;从预先设置的开源数据库中搜索同时包含所述头概念ID和所述尾概念ID的非结构化文本,得到文本训练集以及所述文本训练集中每个元素对应的标记标签;从所述文本训练集中提取包含目标概念对的非结构化文本,构建目标概念对对应的多标签分类器的概念训练集,根据所述概念训练集,训练所述多标签分类器;从所述文本训练集中提取包含目标实例的非结构化文本,构建每个目标实例对应的实例训练集,根据所述实例训练集,训练每个所述多类分类器。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据预先训练的多标签分类器,提取待提取文本的本体概念以及所述本体概念之间的关系;
根据每个所述本体概念预先训练的多类分类器,提取所述待提取文本中本体概念对应的实例;
根据本体概念对应的实体以及所述本体概念之间的关系,确定所述实例之间的关系;
其中,根据预先设置的网络空间威胁知识库,获取概念三元组中头概念对应的头概念ID以及尾概念对应的尾概念ID;从预先设置的开源数据库中搜索同时包含所述头概念ID和所述尾概念ID的非结构化文本,得到文本训练集以及所述文本训练集中每个元素对应的标记标签;从所述文本训练集中提取包含目标概念对的非结构化文本,构建目标概念对对应的多标签分类器的概念训练集,根据所述概念训练集,训练所述多标签分类器;从所述文本训练集中提取包含目标实例的非结构化文本,构建每个目标实例对应的实例训练集,根据所述实例训练集,训练每个所述多类分类器。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
根据预先训练的多标签分类器,提取待提取文本的本体概念以及所述本体概念之间的关系;
根据每个所述本体概念预先训练的多类分类器,提取所述待提取文本中本体概念对应的实例;
根据本体概念对应的实体以及所述本体概念之间的关系,确定所述实例之间的关系;
其中,根据预先设置的网络空间威胁知识库,获取概念三元组中头概念对应的头概念ID以及尾概念对应的尾概念ID;从预先设置的开源数据库中搜索同时包含所述头概念ID和所述尾概念ID的非结构化文本,得到文本训练集以及所述文本训练集中每个元素对应的标记标签;从所述文本训练集中提取包含目标概念对的非结构化文本,构建目标概念对对应的多标签分类器的概念训练集,根据所述概念训练集,训练所述多标签分类器;从所述文本训练集中提取包含目标实例的非结构化文本,构建每个目标实例对应的实例训练集,根据所述实例训练集,训练每个所述多类分类器。
上述网络空间威胁知识抽取方法、装置、计算机设备和存储介质,将知识抽取过程分为两个过程完成,第一个过程是通过多标签分类器,提取出待提取文本中的本体与本体之间的关系,第二个过程是通过每个本体概念对应的多类分类器,提取待提取文本中本体概念对应的实例。最后输出时,将本体的关系作为实例之间的关系输出,另外,在两个阶段模型训练时,通过概念三元组中头概念对应的头概念ID和尾概念对应的尾概念ID,体现出非结构化文本中的隐实体,并且通过头概念ID和尾概念ID,构建文本训练集以及标记标签,从而联合隐实体以及本体关系很好的解决了非结构化文本中网络空间威胁知识的抽取。
附图说明
图1为一个实施例中网络空间威胁知识抽取方法的流程示意图;
图2为一个实施例中多标签分类器的示意性结构图;
图3为一个实施例中多类分类器的示意性结构图;
图4为一个实施例中知识提取框架图;
图5为一个实施例中组合关系判断步骤的流程示意图;
图6为一个实施例中网络空间威胁知识抽取装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种网络空间威胁知识抽取方法,包括以下步骤:
步骤102,根据预先训练的多标签分类器,提取待提取文本的本体概念以及本体概念之间的关系。
多标签分类器是基于标签进行语义分类的模型,例如现有的RNN模型、CNN模型等。
本体是图谱上层的概念,一般而言本体没有实际含义,例如:对于书籍的分类,可以分为化学、物理等,化学、物理就是一个本体概念,然而在物理的领域内,牛顿力学、电磁学、热力学就是知识图谱中的实例层的实体。
步骤104,根据每个本体概念预先训练的多类分类器,提取待提取文本中本体概念对应的实例。
对于实例是否属于本体概念,只存在两种结果,即:是或者不是,对于本体概念而言,通过多类分类器,可以确定实例是否属于本体概念,具体的,多类分类器可以通过多个二分类器实现。
步骤106,根据本体概念对应的实体以及本体概念之间的关系,确定实例之间的关系。
由于实例属于本体概念下分类得到的,因此具备本体概念的语义,因此可以直接将本体概念的关系作为实例之间的关系,从而得到知识图谱中的知识,知识图谱中的知识一般指的是三元组,即:头实体、关系、尾实体;实体就是实例的具体含义。
其中,根据预先设置的网络空间威胁知识库,获取概念三元组中头概念对应的头概念ID以及尾概念对应的尾概念ID,从预先设置的开源数据库中搜索同时包含头概念ID和所述尾概念ID的非结构化文本,得到文本训练集以及文本训练集中每个元素对应的标记标签;从文本训练集中提取包含目标概念对的非结构化文本,构建目标概念对对应的多标签分类器的概念训练集,根据概念训练集,训练多标签分类器;从文本训练集中提取包含目标实例的非结构化文本,构建每个目标实例对应的实例训练集,根据实例训练集,训练每个多类分类器。
在进行各个分类器的训练时,首先需要基于隐实体,头概念ID和尾概念ID是隐实体中的一种,例如:CVE-2019-9766指的是一个漏洞,从具体的语义层面无法获取其具体含义,因此称之为隐实体,一般而言,隐实体对于知识图谱的建立,具有非常重要的地位,本发明创造性的在进行模型训练时,基于隐实体构建训练集,从而适应于非结构文本中隐实体的提取。
上述网络空间威胁知识抽取方法中,将知识抽取过程分为两个过程完成,第一个过程是通过多标签分类器,提取出待提取文本中的本体与本体之间的关系,第二个过程是通过每个本体概念对应的多类分类器,提取待提取文本中本体概念对应的实例。最后输出时,将本体的关系作为实例之间的关系输出,另外,在两个阶段模型训练时,通过概念三元组中头概念对应的头概念ID和尾概念对应的尾概念ID,体现出非结构化文本中的隐实体,并且通过头概念ID和尾概念ID,构建文本训练集以及标记标签,从而联合隐实体以及本体关系很好的解决了非结构化文本中网络空间威胁知识的抽取。
在其中一个实施例中,在进行各个模型训练之间,需要构建训练集,具体是从预先设置的开源数据库中搜索同时包含头概念ID和尾概念ID的非结构化文本,得到文本训练集为:
x={D1,D2,…,Dn}
其中,x表示文本训练集,D表示非结构化文本。
得到文本训练集中每个元素对应的标记标签为:
yi=[Chi,IDhi,Cti,IDti,G]
其中,i=1,2,…,k表示标记标签的总数,Chi表示第i个头概念,IDhi表示第i个头概念ID,Cti表示第i个尾概念,IDti表示第i个尾概念ID,G表示关系判别式,G={0,1},取当G=0表示头概念ID和尾概念ID不存在关系,取G=1表示头概念ID和尾概念ID存在关系。
本实施例中,上述训练集建立是基于远监督学习建立的,目的是为了解决网络空间领域训练集贫乏的问题。
具体的,网络空间威胁本体中的概念及关系可以使用三元组方式存储:[头概念,关系,尾概念],利用网络空间已有的知识,如漏洞(头概念)、攻击模式(尾概念)以及关系,获取所有漏洞ID与所有攻击模式ID,在开源情报数据及网络安全报告中搜索同时包括该漏洞ID和攻击模式ID的所有非结构化文本,自动标注漏洞ID、攻击模式ID、以及“存在”关系,在此基础上形成训练集。
另外,远监督学习假设:如果一篇文档包括了本体中头概念和尾概念的两个实例数据,则说明这两个实例数据之间存在关系,由于网络空间威胁知识图谱中两个实例之间通常就存在二种关系,即“存在”和“不存在”,因此,该假设具有合理性,相对传统的多类关系的远监督学习,将引入相对少量的噪音数据。
在其中一个实施例中,获取目标概念对,从文本训练集中提取包含目标概念对的非结构化文本,构建概念数据集;根据标记标签,将概念训练集对应的概念标签设置为:
yj=[Chi,Cti,G]:
根据概念数据集和概念标签,构建目标概念对对应的多标签分类器的概念训练集。
具体的,在训练集构造基础上,需要进一步学习例如具体漏洞、攻击模式、弱点等文本语义表达特征,在学习特征基础上,可以预测一篇新的开源情报文本是否包含两种具体概念及其关系,若多标签分类器预测结果全为正类,则说明该新的开源情报文本在描述所提到的概念及利用关系;否则,更换下一个分类器进行判断。一篇文本数据可能包含多个概念及关系描述,因此允许一篇文本数据属于多个正类。
另外,还需要从文本训练集提取包含目标概念对中包括头概念或者尾概念的非结构化文本,构建概念数据负集;根据概念数据集、概念数据负集以及概念标签,构建目标概念对对应的多标签分类器的概念训练集。通过构建负集,可以提高学习收敛的速度。
值得说明的是,负集中数据还可以从包含其他头概念和尾概念的训练集中随机抽样部分样本数据、以及从互联网威胁情报中随机抽样非结构化文本进行合并后作为概念训练集的负例。
在另一个实施例中,如图2所示,在提取待提取文本的本体概念和关系时,具体可以是:将待提取文本输入预先训练的多标签分类器的BERT预训练模型,得到待提取文本中上下文相关的词向量,将词向量输入多标签分类器的TextCNN模型,得到词向量的语义特征,将语义特征输入多标签分类器的RNN模型,输出待提取文本的本体概念以及本体概念之间的关系。
本实施例中,基于训练集构造,将非结构化文本“隐实体和关系识别问题”转换为“多标签多分类问题”,进而结合文本的语义特征使用链式学习模型将多标签多分类问题转化为“序列生成任务”,构建链式学习模型如图2所示,
在其中一个实施例中,构建实例训练集的步骤包括:从文本训练集中提取包含目标实例的非结构化文本,构建实例数据集;根据实例数据集中实例的数量,构建1×n维标签集合为
y=[1,1,1,…,1]n
根据实例数据集合所述标签集合,构建每个目标实例对应的实例训练集。
具体的,也需要构建实例数据集的负集,同时,1×n维标签集合变为,1×2n维标签集合。
多输出分类的优化分解的第二阶段是分别对每个概念下的每个实例构造一个分类器,进一步判定网络空间威胁情报知识图谱的两个概念具体针对的是哪两个实例。因此,需要构建多类分类器,实现对目标文本的单标签多分类,例如,针对漏洞标签下的多分类问题,目标类别有
Figure GDA0003597829450000101
的输出规模,因此再将其转化为对每个实例的二分类问题,降低输出空间维度。针对CVE(Common Vulnerability Enumeration,通用漏洞枚举)的分类则需要构建105规模的二分类器,其他维度的分类问题分类规模有可能不同,但是分类转化方法类似。
具体的,对于每一个实例都会有一个二分类器,针对语义表达复杂的非结构化文本数据,将形成大规模的实例分类器,考虑到传统的深度学习编码机制比较复杂,学习开销高,提出基于BERT预训练模型的实例分类器,在每个实例学习器中,只需要简单调参来适配不同的实例学习器,从而降低每个实例多类分类器的学习开销,如图3所示。
在另一个实施例中,分别对每个概念下的每个实例构造一个二分类器,进一步判定网络空间威胁情报数据中两个概念的实例归属,由于类似漏洞概念的输出值域规模大,即需要构造大规模的二分类器,进一步提出基于哑编码的多类分类器,降低其训练代价,由大规模二分类器降低到十级小规模输出的哑编码分类器。
另外,在一个实施例中,本发明的知识抽取分为两个过程,具体如图4所示,鉴于网络空间威胁知识图谱中同一个概念对应的实例通常是互相独立的,将多输出文本分类问题优化为二阶段的分类器。第一阶段,训练一个多标签分类器,实现本体的概念及关系分类。第二阶段,针对第一阶段分类器的输出,使用单标签的多类分类器判断每个标签下的具体标签值,即网络空间威胁知识图谱中的实例及关系,实例关系直接从本体概念关系继承。
在此基础上,在已经构建好的网络空间威胁本体模型中,概念与概念之间存在关系,并且这些知识是以三元组的形式存储
Figure GDA0003597829450000111
其中,Rj为第j个三元组的关系,n,k=1,2,…,m;且n≠k;j=1,2,…,Q,Q为本体概念层三元组的数量,即形成一个三元组集合
Figure GDA0003597829450000112
为实现实体及关系的联合抽取,结合网络空间已有本体模型,对第一阶段分类器的输出概念是否存在组合关系进行判定,仅仅对本体三元组集合
Figure GDA0003597829450000113
中的概念进行关系学习(复杂多步间接关系利用知识图谱推理获得),因此将多标签分类器概念之间多种组合关系弱化为三元组学习的三标签分类器,具体流程如图5所示。
在图5中,一方面输入的文本提取得到不重复概念对,另一方面利用已有本体模型,检测概念对是否在已有本体模型的实体对集合中,如果是,则进行关系的拓展,若不是,则不作处理。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种网络空间威胁知识抽取装置,包括:本体概念提取模块602、实例提取模块604、关系构建模块606和训练模块608,其中:
本体概念提取模块602,用于根据预先训练的多标签分类器,提取待提取文本的本体概念以及所述本体概念之间的关系;
实例提取模块604,用于根据每个所述本体概念预先训练的多类分类器,提取所述待提取文本中本体概念对应的实例;
关系构建模块606,用于根据本体概念对应的实体以及所述本体概念之间的关系,确定所述实例之间的关系;
训练模块608,用于根据预先设置的网络空间威胁知识库,获取概念三元组中头概念对应的头概念ID以及尾概念对应的尾概念ID;从预先设置的开源数据库中搜索同时包含所述头概念ID和所述尾概念ID的非结构化文本,得到文本训练集以及所述文本训练集中每个元素对应的标记标签;从所述文本训练集中提取包含目标概念对的非结构化文本,构建目标概念对对应的多标签分类器的概念训练集,根据所述概念训练集,训练所述多标签分类器;从所述文本训练集中提取包含目标实例的非结构化文本,构建每个目标实例对应的实例训练集,根据所述实例训练集,训练每个所述多类分类器。
在其中一个实施例中,训练模块608还用于从预先设置的开源数据库中搜索同时包含所述头概念ID和所述尾概念ID的非结构化文本,得到文本训练集为:
x={D1,D2,…,Dn}
其中,x表示文本训练集,D表示非结构化文本;得到所述文本训练集中每个元素对应的标记标签为:
yi=[Chi,IDhi,Cti,IDti,G]
其中,i=1,2,…,k表示标记标签的总数,Chi表示第i个头概念,IDhi表示第i个头概念ID,Cti表示第i个尾概念,IDti表示第i个尾概念ID,G表示关系判别式,G={0,1},取当G=0表示头概念ID和尾概念ID不存在关系,取G=1表示头概念ID和尾概念ID存在关系。
在其中一个实施例中,训练模块608还用于获取目标概念对,从所述文本训练集中提取包含目标概念对的非结构化文本,构建概念数据集;根据所述标记标签,将概念训练集对应的概念标签设置为:
yj=[Chi,Cti,G]:
根据所述概念数据集和所述概念标签,构建目标概念对对应的多标签分类器的概念训练集。
在其中一个实施例中,训练模块608还用于从所述文本训练集提取包含所述目标概念对中包括头概念或者尾概念的非结构化文本,构建概念数据负集;根据所述概念数据集、所述概念数据负集以及所述概念标签,构建目标概念对对应的多标签分类器的概念训练集。
在其中一个实施例中,训练模块608还用于从所述文本训练集中提取包含目标实例的非结构化文本,构建实例数据集;根据所述实例数据集中实例的数量,构建1×n维标签集合为
y=[1,1,1,…,1]n
根据所述实例数据集合所述标签集合,构建每个目标实例对应的实例训练集。
在其中一个实施例中,本体概念提取模块602还用于将待提取文本输入预先训练的多标签分类器的BERT预训练模型,得到所述待提取文本中上下文相关的词向量;将所述词向量输入多标签分类器的TextCNN模型,得到所述词向量的语义特征;将所述语义特征输入多标签分类器的RNN模型,输出待提取文本的本体概念以及所述本体概念之间的关系。
在其中一个实施例中,所述多类分类器包括多个二分类器;所述多类分类器为哑编码的多类分类器;实例提取模块604还用于根据每个所述本体概念预先训练的哑编码的多类分类器,提取所述待提取文本中本体概念对应的实例。
关于网络空间威胁知识抽取装置的具体限定可以参见上文中对于网络空间威胁知识抽取方法的限定,在此不再赘述。上述网络空间威胁知识抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网络空间威胁知识抽取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种网络空间威胁知识抽取方法,所述方法包括:
根据预先训练的多标签分类器,提取待提取文本的本体概念以及所述本体概念之间的关系;
根据每个所述本体概念预先训练的多类分类器,提取所述待提取文本中本体概念对应的实例;
根据本体概念对应的实体以及所述本体概念之间的关系,确定所述实例之间的关系;
其中,根据预先设置的网络空间威胁知识库,获取概念三元组中头概念对应的头概念ID以及尾概念对应的尾概念ID;从预先设置的开源数据库中搜索同时包含所述头概念ID和所述尾概念ID的非结构化文本,得到文本训练集以及所述文本训练集中每个元素对应的标记标签;从所述文本训练集中提取包含目标概念对的非结构化文本,构建目标概念对对应的多标签分类器的概念训练集,根据所述概念训练集,训练所述多标签分类器;从所述文本训练集中提取包含目标实例的非结构化文本,构建每个目标实例对应的实例训练集,根据所述实例训练集,训练每个所述多类分类器。
2.根据权利要求1所述的方法,其特征在于,所述从预先设置的开源数据库中搜索同时包含所述头概念ID和所述尾概念ID的非结构化文本,得到文本训练集以及所述文本训练集中每个元素对应的标记标签,包括:
从预先设置的开源数据库中搜索同时包含所述头概念ID和所述尾概念ID的非结构化文本,得到文本训练集为:
x={D1,D2,…,Dn}
其中,x表示文本训练集,D表示非结构化文本;
得到所述文本训练集中每个元素对应的标记标签为:
yi=[Chi,IDhi,Cti,IDti,G]
其中,i=1,2,…,k表示标记标签的总数,Chi表示第i个头概念,IDhi表示第i个头概念ID,Cti表示第i个尾概念,IDti表示第i个尾概念ID,G表示关系判别式,G={0,1},取当G=0表示头概念ID和尾概念ID不存在关系,取G=1表示头概念ID和尾概念ID存在关系。
3.根据权利要求2所述的方法,其特征在于,从所述文本训练集中提取包含目标概念对的非结构化文本,构建目标概念对对应的多标签分类器的概念训练集,包括:
获取目标概念对,从所述文本训练集中提取包含目标概念对的非结构化文本,构建概念数据集;
根据所述标记标签,将概念训练集对应的概念标签设置为:
yj=[Chi,Cti,G]:
根据所述概念数据集和所述概念标签,构建目标概念对对应的多标签分类器的概念训练集。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
从所述文本训练集提取包含所述目标概念对中包括头概念或者尾概念的非结构化文本,构建概念数据负集;
根据所述概念数据集、所述概念数据负集以及所述概念标签,构建目标概念对对应的多标签分类器的概念训练集。
5.根据权利要求1所述的方法,其特征在于,从所述文本训练集中提取包含目标实例的非结构化文本,构建每个目标实例对应的实例训练集,包括:
从所述文本训练集中提取包含目标实例的非结构化文本,构建实例数据集;
根据所述实例数据集中实例的数量,构建1×n维标签集合为
y=[1,1,1,…,1]n
根据所述实例数据集合所述标签集合,构建每个目标实例对应的实例训练集。
6.根据权利要求1至5任一项所述的方法,其特征在于,根据预先训练的多标签分类器,提取待提取文本的本体概念以及所述本体概念之间的关系,包括:
将待提取文本输入预先训练的多标签分类器的BERT预训练模型,得到所述待提取文本中上下文相关的词向量;
将所述词向量输入多标签分类器的TextCNN模型,得到所述词向量的语义特征;
将所述语义特征输入多标签分类器的RNN模型,输出待提取文本的本体概念以及所述本体概念之间的关系。
7.根据权利要求1至5任意一项所述的方法,其特征在于,所述多类分类器包括多个二分类器;所述多类分类器为哑编码的多类分类器;
根据每个所述本体概念预先训练的多类分类器,提取所述待提取文本中本体概念对应的实例,包括:
根据每个所述本体概念预先训练的哑编码的多类分类器,提取所述待提取文本中本体概念对应的实例。
8.一种网络空间威胁知识抽取装置,其特征在于,所述装置包括:
本体概念提取模块,用于根据预先训练的多标签分类器,提取待提取文本的本体概念以及所述本体概念之间的关系;
实例提取模块,用于根据每个所述本体概念预先训练的多类分类器,提取所述待提取文本中本体概念对应的实例;
关系构建模块,用于根据本体概念对应的实体以及所述本体概念之间的关系,确定所述实例之间的关系;
训练模块,用于根据预先设置的网络空间威胁知识库,获取概念三元组中头概念对应的头概念ID以及尾概念对应的尾概念ID;从预先设置的开源数据库中搜索同时包含所述头概念ID和所述尾概念ID的非结构化文本,得到文本训练集以及所述文本训练集中每个元素对应的标记标签;从所述文本训练集中提取包含目标概念对的非结构化文本,构建目标概念对对应的多标签分类器的概念训练集,根据所述概念训练集,训练所述多标签分类器;从所述文本训练集中提取包含目标实例的非结构化文本,构建每个目标实例对应的实例训练集,根据所述实例训练集,训练每个所述多类分类器。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010424101.7A 2020-05-18 2020-05-18 网络空间威胁知识抽取方法和装置 Active CN111597353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010424101.7A CN111597353B (zh) 2020-05-18 2020-05-18 网络空间威胁知识抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010424101.7A CN111597353B (zh) 2020-05-18 2020-05-18 网络空间威胁知识抽取方法和装置

Publications (2)

Publication Number Publication Date
CN111597353A CN111597353A (zh) 2020-08-28
CN111597353B true CN111597353B (zh) 2022-06-07

Family

ID=72187432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010424101.7A Active CN111597353B (zh) 2020-05-18 2020-05-18 网络空间威胁知识抽取方法和装置

Country Status (1)

Country Link
CN (1) CN111597353B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149135B (zh) * 2020-09-16 2023-05-02 国网河北省电力有限公司电力科学研究院 一种安全漏洞的评估方法及装置、计算机可读存储介质
CN112364656A (zh) * 2021-01-12 2021-02-12 北京睿企信息科技有限公司 一种基于多数据集多标签联合训练的命名实体识别方法
CN114579765B (zh) * 2022-03-07 2023-08-15 四川大学 一种基于开源情报分析的网络靶场武器库构建方法
CN114978595B (zh) * 2022-04-19 2023-04-11 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 威胁模型的构建方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777222A (zh) * 2016-12-26 2017-05-31 中国电子科技集团公司第三十研究所 基于轻量级领域本体的安全设备威胁情报共享方法
CN108256063A (zh) * 2018-01-15 2018-07-06 中国人民解放军国防科技大学 一种面向网络安全的知识库构建方法
CN108491469A (zh) * 2018-03-07 2018-09-04 浙江大学 引入概念标签的神经协同过滤概念描述词推荐算法
WO2019050968A1 (en) * 2017-09-05 2019-03-14 Forgeai, Inc. METHODS, APPARATUS, AND SYSTEMS FOR TRANSFORMING UNSTRUCTURED NATURAL LANGUAGE INFORMATION IN TO COMPUTER-PROCESSED STRUCTURED DATA
CN109614501A (zh) * 2018-12-13 2019-04-12 浙江工商大学 一种基于知识图谱的工业隐患规范化上报方法及系统
CN109902297A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种威胁情报生成方法及装置
KR20190134321A (ko) * 2018-05-25 2019-12-04 국방과학연구소 사이버 위협정보 분류 방법 및 장치
CN110717049A (zh) * 2019-08-29 2020-01-21 四川大学 一种面向文本数据的威胁情报知识图谱构建方法
CN110875920A (zh) * 2018-12-24 2020-03-10 哈尔滨安天科技集团股份有限公司 一种网络威胁分析方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160381049A1 (en) * 2015-06-26 2016-12-29 Ss8 Networks, Inc. Identifying network intrusions and analytical insight into the same

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777222A (zh) * 2016-12-26 2017-05-31 中国电子科技集团公司第三十研究所 基于轻量级领域本体的安全设备威胁情报共享方法
WO2019050968A1 (en) * 2017-09-05 2019-03-14 Forgeai, Inc. METHODS, APPARATUS, AND SYSTEMS FOR TRANSFORMING UNSTRUCTURED NATURAL LANGUAGE INFORMATION IN TO COMPUTER-PROCESSED STRUCTURED DATA
CN108256063A (zh) * 2018-01-15 2018-07-06 中国人民解放军国防科技大学 一种面向网络安全的知识库构建方法
CN108491469A (zh) * 2018-03-07 2018-09-04 浙江大学 引入概念标签的神经协同过滤概念描述词推荐算法
KR20190134321A (ko) * 2018-05-25 2019-12-04 국방과학연구소 사이버 위협정보 분류 방법 및 장치
CN109614501A (zh) * 2018-12-13 2019-04-12 浙江工商大学 一种基于知识图谱的工业隐患规范化上报方法及系统
CN110875920A (zh) * 2018-12-24 2020-03-10 哈尔滨安天科技集团股份有限公司 一种网络威胁分析方法、装置、电子设备及存储介质
CN109902297A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种威胁情报生成方法及装置
CN110717049A (zh) * 2019-08-29 2020-01-21 四川大学 一种面向文本数据的威胁情报知识图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Elmar Kiesling.The SEPSES Knowledge Graph: An Integrated Resource for Cybersecurity.《ISWC 2019 Conference paper》.2019, *
张焕国等.网络空间安全综述.《中国科学:信息科学》.2016, *

Also Published As

Publication number Publication date
CN111597353A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111597353B (zh) 网络空间威胁知识抽取方法和装置
Yuan et al. Adversarial examples: Attacks and defenses for deep learning
Ampel et al. Linking common vulnerabilities and exposures to the mitre att&ck framework: A self-distillation approach
US11521041B2 (en) Fact validation method and system, computer device and storage medium
US11550908B2 (en) Method and apparatus for producing a machine learning system for malware prediction in low complexity sensor networks
Shen et al. Data‐Driven Cybersecurity Knowledge Graph Construction for Industrial Control System Security
Huang et al. Local-to-global GCN with knowledge-aware representation for distantly supervised relation extraction
US20220318387A1 (en) Method and Computer for Learning Correspondence Between Malware and Execution Trace of the Malware
Osken et al. Intrusion detection systems with deep learning: A systematic mapping study
CN111783471A (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN116432184A (zh) 基于语义分析和双向编码表征的恶意软件检测方法
Fayyazi et al. On the uses of large language models to interpret ambiguous cyberattack descriptions
Bajaj et al. HOMOCHAR: A novel adversarial attack framework for exposing the vulnerability of text based neural sentiment classifiers
He et al. A method for detecting phishing websites based on tiny-bert stacking
Bajaj et al. Bypassing deep learning based sentiment analysis from business reviews
CN115860117B (zh) 基于攻防行为的mdata知识抽取方法及其系统
CN116599726A (zh) 一种基于漏洞利用网的工控安全事件识别响应方法及系统
Xie et al. Joint gaussian mixture model for versatile deep visual model explanation
Deekshitha et al. URL Based Phishing Website Detection by Using Gradient and Catboost Algorithms
Wu et al. Convolutional neural network with character embeddings for malicious web request detection
Nosenko et al. Learning password modification patterns with recurrent neural networks
Zuo et al. An end-to-end entity and relation joint extraction model for cyber threat intelligence
Feng et al. An Interpretable Model for Large-Scale Smart Contract Vulnerability Detection
Attacks et al. Ian Goodfellow
Idouglid et al. Next-gen security in IIoT: integrating intrusion detection systems with machine learning for industry 4.0 resilience.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant