CN115080756B - 一种面向威胁情报图谱的攻防行为和时空信息抽取方法 - Google Patents

一种面向威胁情报图谱的攻防行为和时空信息抽取方法 Download PDF

Info

Publication number
CN115080756B
CN115080756B CN202210259684.1A CN202210259684A CN115080756B CN 115080756 B CN115080756 B CN 115080756B CN 202210259684 A CN202210259684 A CN 202210259684A CN 115080756 B CN115080756 B CN 115080756B
Authority
CN
China
Prior art keywords
space
attack
time
relation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210259684.1A
Other languages
English (en)
Other versions
CN115080756A (zh
Inventor
李树栋
黄倩岚
吴晓波
韩伟红
方滨兴
田志宏
顾钊铨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202210259684.1A priority Critical patent/CN115080756B/zh
Publication of CN115080756A publication Critical patent/CN115080756A/zh
Application granted granted Critical
Publication of CN115080756B publication Critical patent/CN115080756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及网络安全技术领域,且公开了一种面向威胁情报图谱的攻防行为和时空信息抽取方法,包括以下步骤,S1、使用jieba与Bert模型将语句分词和向量化,S2、探测该句所有的关系,S3、时间戳、IP地址抽取,S4、一体化联合翻译解码方案,S5、将时空数据与三元组进行加权软投票,S6、数据重拼接与输出。该面向威胁情报图谱的攻防行为和时空信息抽取方法,本发明是目前为数不多的针对网络安全中的威胁情报信息的攻防行为的模式与其时空信息进行结合的一个模型,并对其相应的文本信息进行了实体和关系的明确定义和抽取模式的发明,在一定程度上为定义真实安全场景中常见的概念抽取问题提供了可行的思路。

Description

一种面向威胁情报图谱的攻防行为和时空信息抽取方法
技术领域
本发明涉及网络安全技术领域,具体为一种面向威胁情报图谱的攻防行为和时空信息抽取方法。
背景技术
如今的网络信息技术飞速发展,然而近年来,在高度的信息化的同时也给我们带来了层出不穷的网络安全事件,导致网络威胁情报海量增长。在网络空间安全领域,由于网络安全的本质是攻防对抗,所以,对威胁信息的持续跟踪与分析,已成为增强网络安全防护的一项重要举措。
同时,以威胁情报为主的网络威胁信息通常以网络安全文本的形式披露,包括各类网络安全社区发布的博客、白皮书;软件厂商发布的安全公告等。由于机器并不能很好的理解这些非结构化的数据中的大量有用信息,为了更好地利用这些信息,从文本形式的威胁情报中识别、提取诸如新型漏洞信息、漏洞利用方式、网络攻击工具以及攻防模式等关键威胁信息,并且进行关联计算已经成为了网络安全领域的研究热点。为此,利用信息抽取技术,从网络安全文本中自动地抽取安全相关的实体、概念以及关系,将非结构化的数据转换成易于共享和集成的结构化表达,形成网络安全链接数据,并构建网络安全知识图谱,赋予机器认知智能以实现网络安全文本的挖掘与智能化分析,将在网络安全主动防御体系的构建中发挥重要作用。
信息抽取,又名命名实体识别及其关系抽取,目前,通用领域的信息抽取技术和标注体系发展已经相对成熟,然而以威胁情报为主的网络威胁信息的抽取和传统通用的信息抽取有着很大的不同,主要体现在数据标记和抽取方法两个方面,在数据方面,威胁情报为主的网络威胁信息有着更强的领域性和专业性,并且实体和关系种类与通用类型的实体和关系类别也有较大的区别,需要根据使用场景单独设计,在方法方面,以威胁情报为主的网络威胁信息对抽取出的实体关系三元组十分需要时间和空间等数据,然而,在通用领域却没有十分重视三元组的时间和空间数据,因此,面向网络安全领域的实体和关系抽取方法无法照搬现有通用领域的信息抽取框架,需要依据具体场景具体定制,现有于网络空间安全威胁情报的攻防信息的抽取策略与技术几乎为空白,更是十分缺乏其实体关系的定义,并且大量的现有抽取技术与方法都极少考虑将时空信息与抽取的攻防事件信息进行紧密联系,而是将其分开进行实体关系的抽取。
发明内容
本发明的目的在于提供一种面向威胁情报图谱的攻防行为和时空信息抽取方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种面向威胁情报图谱的攻防行为和时空信息抽取方法,包括以下步骤:
S1、语句分词并且向量化
对于输入模型的文本数据,首先使用jieba分词工具将文本数据进行分词,然后将分好词的数据输入到预训练语言Bert模型中,通过Bert模型可以为每一个单词得到一个获取好上下文语义的向量值。
S2、关系探测
将已向量化好的语句输入一个全连接层,将语句与关系库中存在的所有关系进行联合预测
Figure BDA0003550308120000021
并且自定义阈值,当
Figure BDA0003550308120000022
的值大于自定义的阈值时,将该关系加入到该句子的预测关系库Ω中,直至遍历完所有关系,得到该句的关系库λ={relation1,relation2,......,relation3},
Figure BDA0003550308120000023
概率的具体计算方式如下:
Figure BDA0003550308120000024
其中σ是sigmoid函数,Wrelation、brelation分别是可训练参数,Wrelation的第一个维度是1,第二个维度为Bert向量的维度。
损失函数为交叉熵损失函数,公式如下:
Figure BDA0003550308120000031
其中n是输入句子的长度,yi∈{1,0},表示关系的真实标签。
S3、时间戳、IP地址抽取
提取出输入语句中所有的时间戳和IP地址,在这一部分我们采用的方法是规则匹配方法,对于时间戳,主要参考了RFC3161协议对时间戳格式的规定,按照此规定格式抽取,形成该句的时间戳库;IP地址存在xxx.xxx.xxx.xxx这样的模式并且其中的x的取值范围在0至255之间,根据此规则我们可以提取出句子中的所有IP地址,形成该句的IP地址库。
S4、翻译解码方案
基于翻译机制的解码模式阶段,我们为每一个关系使用了两个多头标注框架,一个用来标注头实体,一个用来标注尾实体,我们是先标注头实体Subject,然后再根据Subject寻找Object,并且采取我们自定义阈值,当标注计算值p大于阈值时,即为标记成功,其中Subject的标注公式如下所示:
Figure BDA0003550308120000032
Object的标注公式如下所示:
Figure BDA0003550308120000033
其中Wsubject、bsubject、Wobject、bobject分别是可训练参数。
S5、时空数据与三元组进行加权软投票
使用XGBoost作为基础模型,将所有时空数据与已解码的三元组分别与时间戳库空和IP地址库(统称时空信息)中的数值进行拼接,再分别单独输入到基础模型中训练,然后反过来使用训练好的模型去预测训练集样本,得到每个特征对应的原始预测概率,其次,将训练集数据按照不同的时空信息进行分组,根据每个特征在每组样本的预测结果和真实三元组与时空的拼接来计算logloss,并将logloss的负对数值作为当前特征在当前真实三元组与时空的拼接上的权重值。
得到上述权重后,将每个模型的预测概率乘上对应权重然后相加,得到新的预测概率,对于每一个拼接值,将相加后概率值最大的类确定为样本拼接(即投票结果),然后再从参与投票的所有模型中选取预测结果与投票结果一致且预测概率值最大的结果作为该样本的最终预测结果,从而完成软投票过程。
S6、数据重拼接与输出
将上一步输出的结果先进行简单拼接的数据进行拆分,将与时空数据拼接后非最大概率的三元组直接进行输出,对于预测概率最大的三元组,在其关系用“:”对时空数据进行拼接,例如:(S2,relation1,O2)变成(S2,relation1:时间戳,O2)或(S2,relation1:IP地址,O2)或(S2,relation1:时间戳+IP地址,O2),然后将其进行输出。
优选的,所述步骤S1前需要进行实体和关系的类别表述。
优选的,所述实体和关系的类别表述包括漏洞、攻击者、受害者、攻击、防御、时空信息、后果、软件和恶意软件。
优选的,所述漏洞为“名称、编号(IDS)、危险等级、漏洞披露时间、发现方”,所述攻击者为“组织、人”,所述受害者为“组织、人、设备、网站、产品”,所述攻击为“攻击工具、攻击模式(钓鱼攻击、勒索攻击)”,所述防御为“补丁、技术措施、政策措施、操作防范”,所述时空信息为“攻击时间戳、IP地址”,所述后果为“损失金额、受损设备、受害设备数量”,所述软件和恶意软件为“软件名称”。
实体分类及其关系种类的定义模块,该模块首先根据数据和工程需求,针对实体和关系类别分别进行了定义,具体地,实体和关系的类别表述如下表:
实体类别
Figure BDA0003550308120000051
实体类别(续)
Figure BDA0003550308120000052
威胁情报攻防知识实体标格式注示例
Figure BDA0003550308120000053
Figure BDA0003550308120000061
威胁情报攻防知识实体标格式注示例(续)
Figure BDA0003550308120000062
威胁情报攻防知识实体标格式注示例(续)
Figure BDA0003550308120000063
表3关系类别
Figure BDA0003550308120000064
Figure BDA0003550308120000071
Figure BDA0003550308120000072
与现有技术相比,本发明提供了一种面向威胁情报图谱的攻防行为和时空信息抽取方法,具备以下有益效果:
1、该面向威胁情报图谱的攻防行为和时空信息抽取方法,本发明是目前为数不多的针对网络安全中的威胁情报信息的攻防行为的模式与其时空信息进行结合的一个模型,并对其相应的文本信息进行了实体和关系的明确定义和抽取模式的发明,在一定程度上为定义真实安全场景中常见的概念抽取问题提供了可行的思路,本发明在使用主流的XGBoost算法的基础上,进一步应用了加权软投票和模型集成等策略,为时空信息的分类预测提供更精准的参考数值。
2、该面向威胁情报图谱的攻防行为和时空信息抽取方法,充分考虑了所抽取的实体中可能存在重叠三元组的问题,所以使用了传统的多头标注进行数据标注,并且本模型解决了在传统抽取问题中遍历所有关系的分阶段抽取方式存在的遍历耗时问题和暴露偏差问题。
3、该面向威胁情报图谱的攻防行为和时空信息抽取方法,针对因为在攻防数据中时空数据稀疏,无法将其于其余数据进行三元组联合解码,并且若直接将三元组扩充为五元组,也会存在大量的空缺值的这两个问题提供了一个解决方案。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图:
图1为本发明框架流程示意图;
图2为本发明联合抽取模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1-2,本发明提供一种技术方案:一种面向威胁情报图谱的攻防行为和时空信息抽取方法,包括以下步骤:
S1、语句分词并且向量化
对于输入模型的文本数据,首先使用jieba分词工具将文本数据进行分词,然后将分好词的数据输入到预训练语言Bert模型中,通过Bert模型可以为每一个单词得到一个获取好上下文语义的向量值。
S2、关系探测
将已向量化好的语句输入一个全连接层,将语句与关系库中存在的所有关系进行联合预测
Figure BDA0003550308120000094
并且自定义阈值,当
Figure BDA0003550308120000095
的值大于自定义的阈值时,将该关系加入到该句子的预测关系库Ω中,直至遍历完所有关系,得到该句的关系库λ={relation1,relation2,......,relation3},
Figure BDA0003550308120000091
概率的具体计算方式如下:
Figure BDA0003550308120000092
其中σ是sigmoid函数,Wrelation、brelation别是可训练参数,Wrelation的第一个维度是1,第二个维度为Bert向量的维度。
损失函数为交叉熵损失函数,公式如下:
Figure BDA0003550308120000093
其中n是输入句子的长度,yi∈{1,0},表示关系的真实标签。
S3、时间戳、IP地址抽取
提取出输入语句中所有的时间戳和IP地址,在这一部分我们采用的方法是规则匹配方法,对于时间戳,主要参考了RFC3161协议对时间戳格式的规定,按照此规定格式抽取,形成该句的时间戳库;IP地址存在xxx.xxx.xxx.xxx这样的模式并且其中的x的取值范围在0至255之间,根据此规则我们可以提取出句子中的所有IP地址,形成该句的IP地址库。
S4、翻译解码方案
基于翻译机制的解码模式阶段,我们为每一个关系使用了两个多头标注框架,一个用来标注头实体,一个用来标注尾实体,我们是先标注头实体Subject,然后再根据Subject寻找Object,并且采取我们自定义阈值,当标注计算值p大于阈值时,即为标记成功,其中Subject的标注公式如下所示:
Figure BDA0003550308120000101
Object的标注公式如下所示:
Figure BDA0003550308120000102
其中Wsubject、bsubject、Wobject、bobject分别是可训练参数;
S5、时空数据与三元组进行加权软投票
使用XGBoost作为基础模型,将所有时空数据与已解码的三元组分别与时间戳库空和IP地址库(统称时空信息)中的数值进行拼接,再分别单独输入到基础模型中训练,然后反过来使用训练好的模型去预测训练集样本,得到每个特征对应的原始预测概率,其次,将训练集数据按照不同的时空信息进行分组,根据每个特征在每组样本的预测结果和真实三元组与时空的拼接来计算logloss,并将logloss的负对数值作为当前特征在当前真实三元组与时空的拼接上的权重值。
得到上述权重后,将每个模型的预测概率乘上对应权重然后相加,得到新的预测概率,对于每一个拼接值,将相加后概率值最大的类确定为样本拼接(即投票结果),然后再从参与投票的所有模型中选取预测结果与投票结果一致且预测概率值最大的结果作为该样本的最终预测结果,从而完成软投票过程。
S6、数据重拼接与输出
将上一步输出的结果先进行简单拼接的数据进行拆分,将与时空数据拼接后非最大概率的三元组直接进行输出,对于预测概率最大的三元组,在其关系用“:”对时空数据进行拼接,例如:(S2,relation1,O2)变成(S2,relation1:时间戳,O2)或(S2,relation1:IP地址,O2)或(S2,relation1:时间戳+IP地址,O2),然后将其进行输出。
步骤S1前需要进行实体和关系的类别表述。
实体和关系的类别表述包括漏洞、攻击者、受害者、攻击、防御、时空信息、后果、软件和恶意软件。
漏洞为“名称、编号(IDS)、危险等级、漏洞披露时间、发现方”,攻击者为“组织、人”,受害者为“组织、人、设备、网站、产品”,攻击为“攻击工具、攻击模式(钓鱼攻击、勒索攻击)”,防御为“补丁、技术措施、政策措施、操作防范”,时空信息为“攻击时间戳、IP地址”,后果为“损失金额、受损设备、受害设备数量”,软件和恶意软件为“软件名称”。
实体分类及其关系种类的定义模块,该模块首先根据数据和工程需求,针对实体和关系类别分别进行了定义,具体地,实体和关系的类别表述如下表:
1-1实体类别
Figure BDA0003550308120000111
表1-2实体类别(续)
Figure BDA0003550308120000112
表2-1威胁情报攻防知识实体标格式注示例
Figure BDA0003550308120000121
表2-2威胁情报攻防知识实体标格式注示例(续)
Figure BDA0003550308120000122
表2-3威胁情报攻防知识实体标格式注示例(续)
Figure BDA0003550308120000123
Figure BDA0003550308120000131
表3关系类别
Figure BDA0003550308120000132
Figure BDA0003550308120000133
本发明是目前为数不多的针对网络安全中的威胁情报信息的攻防行为的模式与其时空信息进行结合的一个模型,并对其相应的文本信息进行了实体和关系的明确定义和抽取模式的发明,在一定程度上为定义真实安全场景中常见的概念抽取问题提供了可行的思路,充分考虑了所抽取的实体中可能存在重叠三元组的问题,所以使用了传统的多头标注进行数据标注,并且本模型解决了在传统抽取问题中遍历所有关系的分阶段抽取方式存在的遍历耗时问题和暴露偏差问题,针对因为在攻防数据中时空数据稀疏,无法将其于其余数据进行三元组联合解码,并且若直接将三元组扩充为五元组,也会存在大量的空缺值的这两个问题提供了一个解决方案。
在实际操作过程中,当此装置使用时,该方法使用的标注体系为BIO,首先定义了实体分类及其关系种类,并且给出实体和关系的标注格式,然后将数据通过Bert模型将威胁情报文本信息转变成机器可理解的获得了上下文语义的词向量特征,接着预测该句子中可能存在的所有关系,并在此基础上我们遍历所有预测出的关系,并且采用多头标注对每一个关系中存在的头尾实体Token Pair进行标注,最后采用联合解码的方式解码出一个三元组信息,同时将该句中的时空信息进行提取,然后使用加权软投票与抽取出的三元组信息进行投票分类,然后将时空信息扩充至该三元组中的关系当中,以此构建一个基于攻防行为的威胁情报的信息抽取模型,该模型既能解决重叠三元组问题,同时也能有效利用其时空信息的。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种面向威胁情报图谱的攻防行为和时空信息抽取方法,其特征在于,包括以下步骤:
S1、语句分词并且向量化
对于输入模型的文本数据,首先使用jieba分词工具将文本数据进行分词,然后将分好词的数据输入到预训练语言Bert模型中,通过Bert模型可以为每一个单词得到一个获取好上下文语义的向量值;
S2、关系探测
将已向量化好的语句输入一个全连接层,将语句与关系库中存在的所有关系进行联合预测
Figure FDA0004127294790000011
并且自定义阈值,当
Figure FDA0004127294790000012
的值大于自定义的阈值时,将该关系加入到该句子的预测关系库Ω中,直至遍历完所有关系,得到该句的关系库λ={relation1,relation2,......,relation3},
Figure FDA0004127294790000013
概率的具体计算方式如下:
Figure FDA0004127294790000014
其中σ是sigmoid函数,Wrelation、brelation分别是可训练参数,Wrelation的第一个维度是1,第二个维度为Bert向量的维度;
损失函数为交叉熵损失函数,公式如下:
Figure FDA0004127294790000015
其中n是输入句子的长度,yi∈{1,0},表示关系的真实标签;
S3、时间戳、IP地址抽取
提取出输入语句中所有的时间戳和IP地址,在这一部分我们采用的方法是规则匹配方法,对于时间戳,参考了RFC3161协议对时间戳格式的规定,按照此规定格式抽取,形成该句的时间戳库,IP地址存在xxx.xxx.xxx.xxx这样的模式并且其中的x的取值范围在0至255之间,根据此规则我们可以提取出句子中的所有IP地址,形成该句的IP地址库;
S4、翻译解码方案
基于翻译机制的解码模式阶段,我们为每一个关系使用了两个多头标注框架,一个用来标注头实体,一个用来标注尾实体,我们是先标注头实体Subject,然后再根据Subject寻找Object,并且采取我们自定义阈值,当标注计算值p大于阈值时,即为标记成功,其中Subject的标注公式如下所示:
Figure FDA0004127294790000021
Object的标注公式如下所示:
Figure FDA0004127294790000022
其中Wsubject、bsubject、Wobject、bobject分别是可训练参数;
S5、时空数据与三元组进行加权软投票
使用XGBoost作为基础模型,将所有时空数据与已解码的三元组分别与时间戳库空和IP地址库中的数值进行拼接,再分别单独输入到基础模型中训练,然后反过来使用训练好的模型去预测训练集样本,得到每个特征对应的原始预测概率,其次,将训练集数据按照不同的时空信息进行分组,根据每个特征在每组样本的预测结果和真实三元组与时空的拼接来计算logloss,并将logloss的负对数值作为当前特征在当前真实三元组与时空的拼接上的权重值;
得到上述权重后,将每个模型的预测概率乘上对应权重然后相加,得到新的预测概率,对于每一个拼接值,将相加后概率值最大的类确定为样本拼接,然后再从参与投票的所有模型中选取预测结果与投票结果一致且预测概率值最大的结果作为该样本的最终预测结果,从而完成软投票过程;
S6、数据重拼接与输出
将上一步输出的结果先进行简单拼接的数据进行拆分,将与时空数据拼接后非最大概率的三元组直接进行输出,对于预测概率最大的三元组,在其关系用“:”对时空数据进行拼接,然后将其进行输出。
2.根据权利要求1所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法,其特征在于:所述步骤S1前需要进行实体和关系的类别表述。
3.根据权利要求2所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法,其特征在于:所述实体和关系的类别表述包括漏洞、攻击者、受害者、攻击、防御、时空信息、后果、软件和恶意软件。
4.根据权利要求3所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法,其特征在于:所述漏洞为“名称、编号、危险等级、漏洞披露时间、发现方”,所述攻击者为“组织、人”,所述受害者为“组织、人、设备、网站、产品”,所述攻击为“攻击工具、攻击模式”,所述防御为“补丁、技术措施、政策措施、操作防范”,所述时空信息为“攻击时间戳、IP地址”,所述后果为“损失金额、受损设备、受害设备数量”,所述软件和恶意软件为“软件名称”。
CN202210259684.1A 2022-06-09 2022-06-09 一种面向威胁情报图谱的攻防行为和时空信息抽取方法 Active CN115080756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210259684.1A CN115080756B (zh) 2022-06-09 2022-06-09 一种面向威胁情报图谱的攻防行为和时空信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210259684.1A CN115080756B (zh) 2022-06-09 2022-06-09 一种面向威胁情报图谱的攻防行为和时空信息抽取方法

Publications (2)

Publication Number Publication Date
CN115080756A CN115080756A (zh) 2022-09-20
CN115080756B true CN115080756B (zh) 2023-05-23

Family

ID=83247832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210259684.1A Active CN115080756B (zh) 2022-06-09 2022-06-09 一种面向威胁情报图谱的攻防行为和时空信息抽取方法

Country Status (1)

Country Link
CN (1) CN115080756B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860117B (zh) * 2023-02-22 2023-05-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于攻防行为的mdata知识抽取方法及其系统
CN116192537B (zh) * 2023-04-27 2023-07-07 四川大学 一种apt攻击报告事件抽取方法、系统和存储介质
CN116720501A (zh) * 2023-06-08 2023-09-08 广州大学 面向开源网络威胁情报的攻击实体及关系抽取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131882A (zh) * 2020-09-30 2020-12-25 绿盟科技集团股份有限公司 一种多源异构网络安全知识图谱构建方法及装置
CN112905738A (zh) * 2021-02-05 2021-06-04 中山大学 一种基于时态知识图谱推理的社交关系演变预测方法
CN114168615A (zh) * 2021-12-08 2022-03-11 中国电建集团贵州电力设计研究院有限公司 自然语言查询智能变电站scd文件的方法及系统
CN114357190A (zh) * 2021-12-30 2022-04-15 绿盟科技集团股份有限公司 一种数据检测方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10129239B2 (en) * 2015-05-08 2018-11-13 Citrix Systems, Inc. Systems and methods for performing targeted scanning of a target range of IP addresses to verify security certificates
CN111552855B (zh) * 2020-04-30 2023-08-25 北京邮电大学 一种基于深度学习的网络威胁情报自动抽取方法
CN112199491B (zh) * 2020-10-14 2022-04-22 中国科学院计算技术研究所厦门数据智能研究院 一种基于bert与先验知识特征的关系五元组抽取方法
CN114118269A (zh) * 2021-11-25 2022-03-01 国网重庆市电力公司 基于典型业务场景下的能源大数据聚合分析方法
CN114443863B (zh) * 2022-04-07 2022-07-26 北京网藤科技有限公司 工控网络中基于机器学习的攻击向量生成方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131882A (zh) * 2020-09-30 2020-12-25 绿盟科技集团股份有限公司 一种多源异构网络安全知识图谱构建方法及装置
CN112905738A (zh) * 2021-02-05 2021-06-04 中山大学 一种基于时态知识图谱推理的社交关系演变预测方法
CN114168615A (zh) * 2021-12-08 2022-03-11 中国电建集团贵州电力设计研究院有限公司 自然语言查询智能变电站scd文件的方法及系统
CN114357190A (zh) * 2021-12-30 2022-04-15 绿盟科技集团股份有限公司 一种数据检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115080756A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN115080756B (zh) 一种面向威胁情报图谱的攻防行为和时空信息抽取方法
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN113055386B (zh) 一种攻击组织的识别分析方法和装置
Adewumi et al. A hybrid firefly and support vector machine classifier for phishing email detection
CN110826316B (zh) 一种应用于裁判文书中敏感信息的识别方法
Bagane et al. Classification of Malware using Deep Learning Techniques
Barlow et al. A novel approach to detect phishing attacks using binary visualisation and machine learning
CN114422211A (zh) 基于图注意力网络的http恶意流量检测方法及装置
He et al. Malicious domain detection via domain relationship and graph models
CN114422271B (zh) 数据处理方法、装置、设备及可读存储介质
CN116776889A (zh) 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法
CN113783876B (zh) 基于图神经网络的网络安全态势感知方法及相关设备
Gong et al. Model uncertainty based annotation error fixing for web attack detection
Makridis et al. XAI enhancing cyber defence against adversarial attacks in industrial applications
Chelliah et al. Similarity-based optimised and adaptive adversarial attack on image classification using neural network
CN117729003A (zh) 基于机器学习的威胁情报可信分析系统及方法
CN115860117B (zh) 基于攻防行为的mdata知识抽取方法及其系统
Zonyfar et al. HCNN-LSTM: Hybrid Convolutional Neural Network with Long Short-Term Memory Integrated for Legitimate Web Prediction
CN114118398A (zh) 目标类型网站的检测方法、系统、电子设备及存储介质
CN115001763B (zh) 钓鱼网站攻击检测方法、装置、电子设备及存储介质
US20230353595A1 (en) Content-based deep learning for inline phishing detection
Teixeira et al. CatchPhish: Model for detecting homographic attacks on phishing pages
Khan Detecting phishing attacks using nlp
Zhang A deep learning based framework for detecting and visualizing online malicious advertisement
Kundu et al. Automated Fact Checking Using A Knowledge Graph-based Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant