CN116720501A

CN116720501A - 面向开源网络威胁情报的攻击实体及关系抽取方法及系统

Info

Publication number: CN116720501A
Application number: CN202310680849.7A
Authority: CN
Inventors: 仇晶; 陈俊君; 高成亮; 汤菲; 田志宏; 殷丽华; 李默涵; 邢家旭; 陈荣融; 郑东阳; 胡铭皓; 倪晓雅; 肖千龙
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-09-08

Abstract

本说明书实施例提供了一种面向开源网络威胁情报的攻击实体及关系抽取方法及系统，其中，方法包括：S1.对网络威胁情报的文本信息进行分句处理，将所述文本信息拆分为单句；S2.基于信息抽取UIE框架与文本标注工具doccano，对所述单句内容是否与攻击行为相关进行分类标注，并删除与攻击行为无关的文本内容，保留攻击文本；S3.基于Spacy依存语法树规则与攻击实体保护机制结合，对攻击文本进行解析；S4.基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系。本发明提高了CTI情报攻击语义信息抽取的准确率，能够更好地加强纵深防御，实现了主动防御、攻击检测、应急响应和溯源取证。

Description

面向开源网络威胁情报的攻击实体及关系抽取方法及系统

技术领域

本文件涉及自然语言处理和网络安全技术领域，尤其涉及一种面向开源网络威胁情报的攻击实体及关系抽取方法及系统。

背景技术

随着数字化的深入发展，数据量级和数据价值与日俱增，在为社会生产活动提供更多推进力的同时，也面临着越来越严峻的网络安全问题，加强数据安全治理建设，保障数据安全成为当下亟待解决的刚需问题。

网络攻击变得越来越复杂和多样化，使得检测变得越来越困难。为了应对这些攻击，安全从业人员积极总结网络攻击的规律并以网络威胁情报(CTI)报告的形式在组织间交流关于网络攻击的知识。网络威胁情报(CTI)是一个有价值的信息网络攻击的来源，这些报告用自然语言描述许多方面的攻击,CTI报告中包含的知识是至关重要的。然而，由于以自然语言文本编写的网络威胁情报是非结构化的文本，因此分析复杂的CTI和非结构化文本报告需要耗费大量人力以及时间,从而导致情报的知识难以有效使用，面对这一窘境，精准的自动抽取网络威胁情报攻击语义信息是十分必要的。

现有的网络威胁情报信息自动化抽取方法皆受限于其模型算法的局限性，存在一些缺点，具体表现为：(1)基于开放领域信息自动化抽取网络威胁情报中的攻击语义知识忽略了网络安全领域文本的复杂性，针对这个问题，基于开放领域信息抽取网络威胁情报攻击语义信息会导致非攻击行为的实体和关系一概抽取出来，从而导致整个抽取框架的准确率变低；(2)网络威胁情报中的句式较长且关系复杂，针对这个问题，基于依存语法树对文本信息抽取攻击行为中的实体以及实体间关系只根据依存语法树去进行识别时，会导致攻击实体间部分关系准确度不高；(3)网络安全领域的专业术语，像IP地址，文件名，哈希值等，称为IOC攻击实体，无论是基于开放域信息抽取框架和基于依存语法树都很难高效准确地识别出IOC攻击实体，从而使得整个自动化抽取网络威胁情报效果不佳。

发明内容

本说明书一个或多个实施例提供了一种面向开源网络威胁情报的攻击实体及关系抽取方法，包括：

S1.对网络威胁情报的文本信息进行分句处理，将所述文本信息拆分为单句；

S2.基于信息抽取UIE框架与文本标注工具doccano，对所述单句内容是否与攻击行为相关进行分类标注，并删除与攻击行为无关的文本内容，保留攻击文本；

S3.基于Spacy依存语法树规则与攻击实体保护机制结合，对攻击文本进行解析；

S4.基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系。

本说明书一个或多个实施例提供了一种面向开源网络威胁情报的攻击实体及关系抽取系统，包括：

数据处理模块：用于对网络威胁情报的文本信息进行分句处理，将所述文本信息拆分为单句；

攻击文本分类模块：用于基于信息抽取UIE框架与文本标注工具doccano，对所述单句内容是否与攻击行为相关进行分类标注，并删除与攻击行为无关的文本内容，保留攻击文本；

攻击文本解析模块：用于基于Spacy依存语法树规则与攻击实体保护机制结合，对攻击文本进行解析；

实体及关系获取模块：基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系。

本发明提高了CTI情报攻击语义信息抽取的准确率，能够更好地加强纵深防御，实现了主动防御、攻击检测、应急响应和溯源取证。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取方法的流程图；

图2为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取方法识别IOC攻击实体的正则表达式示意图；

图3为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取系统的组成示意图；

图4为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取方法对攻击文本解析过程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

方法实施例

根据本发明实施例，提供了一种面向开源网络威胁情报的攻击实体及关系抽取方法，图1为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取方法的流程图，如图1所示，根据本发明实施例的面向开源网络威胁情报的攻击实体及关系抽取方法具体包括：

S1.对网络威胁情报的文本信息进行分句处理，将所述文本信息拆分为单句。

针对网络威胁情报的文本复杂性，首先对文本进行预处理，对文本做句子边界处理，将文本中的内容按句分隔开，后续所有的处理方法都以句子级别实现，具体方法如下：

对文本按句型结构拆分：针对常见的文本格式，以常用文本结束标点作为句子结尾标记符号进行拆分，例如“.？！；”等一些常用文本结束符；针对pdf或网页数据格式，将pdf或网页数据格式转换为文本后再根据句子结尾标记符号进行拆分；针对网安领域的报告文本中存在需要访问的网址或文件地址导致存在空格、空行现象时，需要将文本中多余的空格，空行现象删除，同时需要对多行网址完成句内合并；

对文本中的句内成分进行拆分：利用Spacy框架中的词性标注模块对文本句内成分进行判别，通过依存语法树判定单词的成分，将文本中的句子按照至少存在明显的主语、谓语、动词的句子和至少存在动词和宾语的句子进行拆分；

拆分完成后，将本阶段句内成分明确的句子作为UIE中情感分类模块的文本训练数据。

S2.基于信息抽取UIE框架与文本标注工具doccano，对所述单句内容是否与攻击行为相关进行分类标注，并删除与攻击行为无关的文本内容，保留攻击文本。

利用UIE框架情感分类模块结合doccano数据标注针对网络安全领域文本进行攻击行为文本分类，只对攻击文本中做完句子边界划分后，需要对句子内容进行分类，为了减少冗长并获得攻击行为的简明描述，必须删除大量多余与攻击行为无关的文本，具体方法如下：

通过文本标注工具doccano进行数据标记，针对单句中的攻击观点词，评价维度和攻击行为属性倾向进行标记；评价维度包括：修改，删除，更新；攻击行为属性倾向包括与攻击行为相关句子和与攻击行为无关的句子；

通过UIE模块与doccano标记文本训练数据进行定制化攻击文本分类预训练，使用得到的模型删除与攻击行为无关的文本内容，保留攻击文本，选择与攻击相关的文本作为下一阶段输入。

S3.基于Spacy依存语法树规则与攻击实体保护机制结合，对攻击文本进行解析。具体的，如图4所示，攻击文本解析过程具体包括：

通过攻击实体保护机制，对攻击文本中每一句的攻击实体进行封装；

使用Spacy依存语法树规则与攻击实体保护机制相结合使得攻击文本解析，首先接收经过所述UIE模块分类的攻击文本，对攻击文本中每一句的攻击实体进行封装，所述攻击实体包含IOC攻击实体和非IOC攻击实体。

具体的：

针对IOC攻击实体来说，这类攻击实体具体特定语义形式，采用如图2所示的正则表达式进行识别IOC攻击实体，将识别的IOC攻击实体封装为5类角色：文件，进程，IP地址，寄存器，哈希值；将通过正则表达式识别到的IOC攻击实体记录初始情况下文本的实际内容，以及实体在文本信息中起始字段，终止字段信息，再根据被定义的5类角色类型将原始IOC文本内容进行代替，从而实现IOC攻击实体封装；

针对非IOC攻击实体来说，主要分为三类：攻击实施者(即apt组织，恶意软件名称等)，攻击工具(即脚本，漏洞，恶意负载等)，其他属性(即服务，计划表等)；主要做法是通过构建恶意软件词库和依存语法树想结合，将攻击实施者与攻击攻击以及其他属性的关系来观察是否存在主谓关系，同样识别到的非IOC攻击实体记录初始情况下文本的实际内容，以及非IOC攻击实体在文本信息中起始字段，终止字段信息，再根据被定义的3类角色类型将原始非IOC攻击实体文本内容进行代替，从而实现非IOC攻击实体封装；

通过攻击实体保护机制避免网络安全领域专业术语对后续NLP工具抽取效果，同时保留攻击行为的信息。

经过攻击实体保护机制后，通过NLTK库对其进行分句处理，再将句子级别的对象输入到Spacy框架，通过依存语法树和命名实体识别模块对句中的多种文本关系按照攻击实体和攻击动作进行拆分。使用依存语法树是为了更好了呈现各单词的语义成分以及单词之间的依赖关系，句子中会包含and，or等连接词并列成分出现，导致句子中存在多重关系，需对句中的多重关系进行句内切分，经分析分为2种并列形式存在：攻击实体并列，攻击动作并列。通过依存语法树对句中的多种关系在不破坏句内成分情况下进行拆分，得到句子成分明确且关系单一的句子。

将拆分后的攻击文本中单句为被动语态的句子转换成主动语态，并将攻击文本中缺失主语的攻击动作进行主语补全；

具体的，经过文本关系化简之后，文本中存在的被动语态问题导致句子中存在攻击实体与被攻击实体的因果关系颠倒，需对文本中句中进行被动语态转换成主动语态；在CTI情报数据处理阶段，选择了保留动词为首的句子，因此在解析文本的过程中将缺失主语的攻击动作补上主语，文本解析的过程中都是以句子级别进行处理，选择当前句子位置之前出现的动作实施者作为候选主语表，根据候选项与缺少主语的句子之间的距离(计算为句子数)从列表中挑选最可能的候选项，特别地，更接近的候选者具有更高的被挑选的概率。

最后针对文本中两个或多个单词指代同一实体的情况，使用Spacy框架中的coreferee共指消歧模块进行代词消除歧义，生成句子成分明确且关系单一的句子，为后续攻击实体节点融合提供了保障。

使用SRL语义角色标注来确定句子的潜在谓词参数结构，并提供可以回答有关句子含义的基本问题的表示，包括攻击动作，攻击实施者，被攻击的接收者以及攻击的位置。

攻击语义角色标注模块接收来自Spacy依存语法树规则与攻击实体保护机制相结合解析的攻击文本，将解析后的攻击文本按顺序输入到SRL语义角色预测模块进行预测；

通过所述SRL模块将句子的各个单词用BIO标签对其进行标签化处理，以句中的攻击动作为中心，观察当前与攻击动作的动词相关的语义角色信息；

通过BIO标签识别角色，提取出攻击文本中的定义的攻击实体以及攻击实体间的关系。

最后一步就是还原当前语义角色所代表真实含义，将之前的CTI攻击实体词典信息进行词性还原7类角色进行词义匹配从而达到其效果，通过使用SRL对文本各个单词角色进行预测分析，从而获取CTI情报中攻击实体以及攻击实体间的关系。

本发明的有益效果如下：

系统实施例

根据本发明实施例，提供了一种面向开源网络威胁情报的攻击实体及关系抽取系统，图3为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取系统的组成示意图，如图3所示，根据本发明实施例的面向开源网络威胁情报的攻击实体及关系抽取系统具体包括：

数据处理模块30：用于对网络威胁情报的文本信息进行分句处理，将所述文本信息拆分为单句。

所述数据处理模块30具体用于：

对文本按句型结构拆分：针对常见的文本格式，以常用文本结束标点作为句子结尾标记符号进行拆分；针对pdf或网页数据格式，将pdf或网页数据格式转换为文本后在进行拆分；针对网安领域的报告文本格式中存在需要访问的网址或文件地址导致存在空格、空行现象时，需要将文本中多余的空格，空行现象进行删除处理；

将本阶段句内成分明确的句子作为UIE中情感分类模块的文本训练数据。

攻击文本分类模块32：用于基于信息抽取UIE框架与文本标注工具doccano，对所述单句内容是否与攻击行为相关进行分类标注，并删除与攻击行为无关的文本内容，保留攻击文本。

所述攻击文本分类模块32具体用于：

通过文本标注工具doccano进行数据标记，针对单句中的攻击观点词，评价维度，包括：修改，删除，更新，和攻击行为属性倾向，包括与攻击行为相关句子和与攻击行为无关的句子，进行标记；

通过UIE模块与doccano标记文本训练数据进行定制化攻击文本分类预训练，使用得到的模型删除与攻击行为无关的文本内容，保留攻击文本。

攻击文本解析模块34：用于基于Spacy依存语法树规则与攻击实体保护机制结合，对攻击文本进行解析。

所述攻击文本解析模块34具体用于：

通过NLTK库对经过攻击实体保护机制后的攻击文本进行分句处理，再将单句输入到Spacy框架中，通过依存语法树对句中的多种文本关系按照攻击实体和攻击动作进行拆分，得到句子成分明确且关系单一的句子；

使用Spacy框架中的coreferee共指消歧模块将攻击文本中两个或多个单词指代同一实体的情况进行代词消除歧义，生成句子成分明确且关系单一的句子。

实体及关系获取模块36：基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系。

所述实体及关系获取模块36具体用于：

攻击语义角色标注模块接收解析后的攻击文本，将解析后的攻击文本按顺序输入到SRL语义角色预测模块进行预测；

本发明实施例是与上述方法实施例对应的系统实施例，各个模块的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种面向开源网络威胁情报的攻击实体及关系抽取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对网络威胁情报的文本信息进行分句处理，将所述文本信息拆分为单句具体包括：

3.根据权利要求1所述的方法，其特征在于，所述基于信息抽取UIE框架与文本标注工具doccano，对所述单句内容是否与攻击行为相关进行分类标注，并删除与攻击行为无关的文本内容，保留攻击文本具体包括：

4.根据权利要求1所述的方法，其特征在于，所述基于Spacy依存语法树规则与攻击实体保护机制结合，对攻击文本进行解析具体包括：

5.根据权利要求1所述的方法，其特征在于，所述基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系具体方法为：

6.一种面向开源网络威胁情报的攻击实体及关系抽取系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述数据处理模块具体用于：

8.根据权利要求6所述的系统，其特征在于，所述攻击文本分类模块具体用于：

9.根据权利要求6所述的系统，其特征在于，所述攻击文本解析模块具体用于：

10.根据权利要求6所述的系统，其特征在于，所述实体及关系获取模块具体用于：