CN116756272B

CN116756272B - 面向中文威胁报告的att&ck模型映射方法及装置

Info

Publication number: CN116756272B
Application number: CN202310741156.4A
Authority: CN
Inventors: 仇晶; 高成亮; 陈俊君; 汤菲; 邢家旭; 田志宏; 孙彦斌; 李默涵; 陈荣融; 郑东阳; 胡铭皓; 倪晓雅; 肖千龙
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2024-02-23
Anticipated expiration: 2043-06-20
Also published as: CN116756272A

Abstract

本说明书实施例提供了一种面向中文威胁报告的ATT&CK模型映射方法及装置，其中，该方法包括获取威胁报告文本，通过中文开源自然语言处理工具对威胁报告文本分析，并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注；基于预设的语义角色标签与攻击向量维度的映射关系表，抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段，将文本片段拼接成一个新的文本代表攻击向量；将攻击向量输入至ATT&CK映射模型，获得对应的TTP标签，根据TTP标签确定解除威胁的TTP决策。本发明以ATT&CK威胁框架为核心，可以精准定位攻击相关主题报告，过滤无关、冗余信息获取，聚焦核心威胁信息。

Description

面向中文威胁报告的ATT＆CK模型映射方法及装置

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种面向中文威胁报告的ATT&CK模型映射方法及装置。

背景技术

开源威胁报告中包含最新的攻击手段、攻击线索、攻击踪迹等信息，对构建基于主动防御的威胁狩猎、态势感知具有重要意义。报告中的威胁信息主要采用自然语言描述的形式对攻击行为细节进行呈现，同时也会流露出作者对攻击者更高层面的意图和动机的揣测和思考。如果能从大量威胁报告中提炼攻击者意图及其所使用的攻击策略，结合大数据分析优势，能够为积极主动的防御实施提供数据支撑，这是一个研究热点。由专业人员和社区进行维护和打造的ATT&CK知识库，是网络空间安全领域十分重要的开源知识库。ATT&CK威胁框架中描述了详细的攻击技术和高可信的威胁知识，它能够桥接攻击者行为与攻击者意图，填充威胁报告和攻击者行为之间的语义联系。从中文开源威胁报告中提取攻击行为，再通过ATT&CK映射到对应的战术、技术和程序(TTP)，能够清晰呈现攻击者行为链条，辅助发现攻击组织、攻击者的攻击意图，帮助安全分析师开展防御提供针对性决策依据。

现有技术中，面向开源威胁报告的ATT&CK映射方法，主流技术涉及三类方法：基于统计、基于早期机器学习、和基于深度学习的方法。

但存在以下问题：

首先，现有技术大多解析的都是英文开源威胁报告，而面向无论是在语言表达风格上还是在词汇使用习惯上都与英文存在巨大差异的中文开源威胁报告，上述方法均不适用；其次，中文开源情报体系发展相对英美发展落后，这导致高质量有标注的网安训练数据量相对与英文标注数据要少很多，因此使用机器学习和深度学习算法训练后的ATT&CK映射模型泛化能力差；最后，开源威胁报告具有领域性、专业性的特点，通用的中文自然语言处理工具不足以很好的支撑相关研究。随着我国面对网络威胁日益剧增，中文开源威胁报告发布途径日益增多，挖掘中文开源威胁报告中暗含的攻击者意图需求将会扩大。

发明内容

为克服相关技术中存在的问题，本公开提供一种面向中文威胁报告的ATT&CK模型映射方法及装置。

本说明书一个或多个实施例提供了一种面向中文威胁报告的ATT&CK模型映射方法，包括以下步骤：

获取威胁报告文本，通过中文开源自然语言处理工具对威胁报告文本分析，并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注；

基于预设的语义角色标签与攻击向量维度的映射关系表，抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段，将文本片段拼接成一个新的文本代表攻击向量；其中，攻击向量为表征攻击行为主体、意图、方式、动机以及时机特征的向量；

将攻击向量输入至ATT&CK映射模型，获得对应的TTP标签，根据TTP标签确定解除威胁的TTP决策，其中

ATT&CK映射模型为基于BM25检索算法的模型，所述ATT&CK映射模型为通过计算带TTP标签的攻击向量数据中出现的词汇与每个带TTP标签的攻击向量的相关性程度。

进一步的，所述获取威胁报告文本，通过经过网安领域知识增强后的中文开源自然语言处理工具对威胁报告文本分析，并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注，具体为：

通过中文开源自然语言处理工具对威胁报告文本进行分词和词性标注；

根据词性标注确定动词短语，并确定动词短语是否包含攻击动作词，如果包含则转下一步骤，若不包含，则丢弃该威胁文本；

通过经过网安领域知识增强后的中文开源自然语言处理工具对威胁报告文本进行句法依存分析和语义角色标注。

进一步的，基于预设的语义角色标签与攻击向量维度的映射关系表，抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段，将文本片段拼接成一个新的文本代表攻击向量，具体为：

确定威胁报告文本各单句中各词汇的语义角色标签，并根据构建的语义角色标签与攻击向量维度的映射关系表中的映射关系，确定威胁报告文本各单句中带有与攻击向量维度相对应的语义角色标签所对应的第一文本片段；

将带有与攻击向量维度相对应的语义角色标签所对应的第一文本片段拼接成文本序列；

对文本序列进行分词处理，获得各第二文本片段，根据预设的映射关系，得到各第二文本片段代表威胁信息的攻击向量，且攻击向量按照威胁报告文本各单句的语序进行排列；其中，攻击向量的长度等同于攻击向量中出现的第二文本片段的个数。

进一步的，所述输入至ATT&CK映射模型中的攻击向量为：

根据预设的攻击向量个数获取条件顺序获取预设个数的攻击向量输入至ATT&CK映射模型。

进一步的，所述ATT&CK映射模型中设置一个决策机制，其核心公式如下：

T_rtp＝lOOkup({T₁，T₂，...T_N})

其中，N代表输入的攻击向量个数，变量T_N代表ATT&CK模型对第N个攻击向量预测的TTP标签，函数lookup用于识别TTPs标签，并赋值给变量T_ttp。

进一步的，还包括对中文开源自然语言处理工具的领域信息强化的方法包括步骤：

采集中文开源威胁报告和ATT&CK官网上关于攻击者战略、战术、技术、防御措施及其攻击实例的描述文本；

采用文本预处理方法对中文开源威胁报告和ATT&CK描述文本数据清洗，提取与网络攻击相关的威胁报告文本；

使用中文开源自然语言处理工具对威胁文本进行词法、句法、语义三个层面分析，提取描述攻击动作的动词词汇，构建成攻击动作词表；

使用中文开源自然语言处理工具对威胁文本进行词法、句法、语义三个层面分析，提取与攻击动作相关的攻击主体词汇，构建成攻击主体词表；

使用攻击动作词表和攻击主体词表拓展中文开源自然语言处理能力，获得面向中文开源威胁情报的增强型自然语言处理工具。

进一步的，所述攻击动作词表构建过程具体为：

步骤S101、采用中文开源自然语言处理工具对威胁文本进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注；

步骤S102、抽取威胁文本中满足词性标签为动词的词汇，依存句法结构中与名词关联的词汇、及语义角色为动作成分的词汇，作为攻击动作候选词汇；

步骤S103、计算各攻击动作候选词汇在威胁情报语料中的tfidf值，并筛选tfidf值高的攻击动作候选加入到攻击动作词表中，通过人工校验的方式构建攻击动作词表。

进一步的，所述攻击主体词表构建过程具体为：

步骤S201、采用中文开源自然语言处理工具对威胁文本进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注；

步骤S202、抽取威胁文本中满足词性标签为名词的词汇，依存句法结构中与名词关联的词汇以及语义角色为动作的实施角色和接收角色的词汇，并作为攻击主体候选词汇；

步骤S203、抽取威胁文本中包含攻击主体候选词的名词性短语，其中名词性短语抽取规则包含名词，名词+名词，数词+名词和/或形容词+名词的形式；

步骤S204、计算各攻击主体候选词汇在威胁情报语料中的idf值，并筛选idf值高的攻击主体候选词汇加入到攻击主体词表中，并通过人工校验的方式构建攻击主体词表。

本说明书一个或多个实施例提供了一种面向中文威胁报告的ATT&CK模型映射装置，其特征在于，包括：

获取分析模块：用于获取威胁报告文本，通过中文开源自然语言处理工具对威胁报告文本分析，并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注；

攻击向量确定模块：基于预设的语义角色标签与攻击向量维度的映射关系表，抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段，将文本片段拼接成一个新的文本代表攻击向量；其中，攻击向量为表征攻击行为主体、意图、方式、动机以及时机特征的向量；

决策确定模块：将攻击向量输入至ATT&CK映射模型，获得对应的TTP标签，根据TTP标签确定解除威胁的TTP决策；其中，

进一步的，所述攻击向量确定模块具体执行以下操作：

本发明，通过中文开源自然语言处理工具对威胁报告文本进行词法、句法、语义三个层面分析，并基于预设的语义角色标签与攻击向量的映射关系，根据确定的语义角色标签获得代表威胁行为的攻击向量，最后挖掘攻击向量与ATT&CK之间的关联特征，完成ATT&CK映射，获得对应的威胁报告文本的TTP标签，从而根据TTP标签确定解除威胁的TTP决策。

本发明以ATT&CK威胁框架为核心，对海量非结构化中文威胁报告进行深度分析，可以帮助安全分析师精准定位攻击相关主题报告，过滤无关、冗余信息获取，聚焦核心威胁信息；该发明的持续推广可以为提前干扰和反制对手入侵提供决策依据，间接提高对手攻击成本，降低对手攻击的效率和成功率。从整体上提升了既有安全产品及服务体系的完整性。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种面向中文威胁报告的ATT&CK模型映射方法的流程图；

图2为本说明书一个或多个实施例提供的攻击动作词表构建过程图；

图3为本说明书一个或多个实施例提供的攻击主体词表构建过程图；

图4为本说明书一个或多个实施例提供的一种面向中文威胁报告的ATT&CK模型映射装置结构框图；

图5为本说明书一个或多个实施例提供的一种计算机的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明件的保护范围。

下面结合具体实施方式和说明书附图对本发明做出详细的说明。

方法实施例

根据本发明实施例，提供了一种面向中文威胁报告的ATT&CK模型映射方法，如图1所示，为本实施例提供的面向中文威胁报告的ATT&CK模型映射方法流程图，根据本发明实施例的面向中文威胁报告的ATT&CK模型映射方法，包括：

步骤S1、获取威胁报告文本，通过中文开源自然语言处理工具对威胁报告文本分析，并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注；

步骤S2、基于预设的语义角色标签与攻击向量维度的映射关系表，抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段，将文本片段拼接成一个新的文本代表攻击向量；其中，攻击向量为表征攻击行为主体、意图、方式、动机以及时机特征的向量，且如下表1所示，为本实施例提供的语义角色标签与攻击向量维度的映射关系表；

表1、语义角色标签与攻击向量维度的映射关系表

序号	语义角色的标签	攻击向量的维度
			1	动作实施者	攻击行为主体
2	动作	攻击具体行为
			3	动作接受者	攻击行为主体
4	动作实施范围	攻击行为主体
			5	动作实施时机	攻击行为时机
6	动作实施时间	攻击行为时机
			7	动作实施方式	攻击行为方式
8	动作实施方向	攻击行为动机
			9	动作实施地点	攻击行为动机
10	动作实施目的	攻击行为意图
			11	动作实施程度	攻击行为意图

步骤S3、将攻击向量输入至ATT&CK映射模型，从而获得对应的TTP标签，根据TTP标签确定解除威胁的TTP决策；其中，

ATT&CK映射模型为基于BM25检索算法的模型，ATT&CK映射模型无需训练，只要收集所有带TTP标签的攻击向量数据，计算攻击向量数据中的词汇与每个带TTP标签的攻击向量的相关性程度，即可完成ATT&K模型构建，其中相关性程度以实数表示，数值越大越相关，推荐取值范围(0，1)。。

在一些实施例中，为了提高步骤威胁报告文本的判断效率，避免一些不必要的判断过程，步骤S1中通过中文开源自然语言处理工具对威胁报告文本分析，并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注包括步骤：

步骤S11、通过中文开源自然语言处理工具对威胁报告文本进行分词和词性标注；

步骤S12、根据词性标注确定动词短语，并确定动词短语是否包含攻击动作词，如果包含则转下一步骤，若不包含，则丢弃该威胁文本；

步骤S13、通过中文开源自然语言处理工具对威胁报告文本进行句法依存分析和语义角色标注。

在一些实施例中，步骤S2中，基于预设的语义角色标签与攻击向量的映射关系，根据语义角色标注的标签，对应语义角色标签确定代表威胁行为的攻击向量步骤：

步骤S21、基于步骤S1，确定威胁报告文本各单句中的语义角色标注的标签，并根据构建的语义角色标签表，确定语义角色标注对应的语义角色标签；

本实施例中，可选的，经过网安领域知识增强后的中文开源自然语言处理工具对威胁报告文本中对应的文本片段进行语义角色标注可为通过标签的方式进行标注，该标签的信息与语义角色标签的标签信息一致；其中，如表1所示，语义角色标签例如包括动作实施者、动作、动作接受者、动作实施范围、动作实施时机、动作实施时间、动作实施方式、动作实施目的、动作实施方向和动作实施地点等。

步骤S22、将各语义角色标签所对应的第一文本片段拼接成文本序列；

步骤S23、再对文本序列进行分词处理，获得各第二文本片段，根据预设的映射关系，得到各第二文本片段代表威胁信息的攻击向量，且攻击向量按照语序进行排列；其中攻击向量的长度等同于攻击向量中出现的词汇个数，例如例第一文本片为恶意攻击者(动作实施者)，故意擦除(动作)，互联网金融公司数据(动作接受者)，则通过步骤S23获得的攻击向量包括恶意，攻击者，故意，擦除，互联网，金融公司及数据，则攻击向量的长度等于词汇个数，值为7。

再通过另一案例说明所述攻击向量的获得过程，例如句子威胁报告文本中的一个单句内容为“使用chattr-i将PID文件标记为受保护的，因此无法修改”，

根据语义角色标签与攻击向量维度的映射关系表获得文本片段为，使用chattr(动作实施者-攻击行为主体)，“将PID文件”(动作接受者-攻击行为主体)，“标记”(动作-攻击具体行为)，“为受保护”(动作实施程度-攻击行为意图)，“无法修改”(动作实施目的-攻击行为意图)

再拼接文本：使用chattr将PID文件标记为受保护无法修改；

攻击向量：[使用,chattr,将,PID,文件标记,为,受保护,无法,修改]。

在一些实施例中，步骤S3中输入至ATT&CK映射模型中的攻击向量是根据预设的攻击向量个数获取条件从步骤S23中顺序获取预设个数的攻击向量输入至ATT&CK映射模型。本实施例，将预设个数的攻击向量输入ATT&CK映射模型，是由于带TTP标签的文本描述包含多个动作，而威胁情报文本中单句包含的动作比较少，所以需要一定数量且连续的攻击向量来预测一个TTP标签。

且在本实施例中，所述ATT&CK映射模型为基于BM25检索算法的模型，该模型根据输入的攻击向量获得对应的TTP标签的过程中，由于一个TTP标签对应多个攻击动作，而中文开源威胁报告中绝大多数情况是一句文本仅包含一个攻击动作，这就意味着模型想要识别准确的TTP标签，需要引入一个决策机制，决策模型的作用，是统计一次输入到ATT&CK模型的N个攻击向量所对应的TTP标签个数，并将重复出现最多次的TTP标签，作为ATT&CK模型的识别结果。

决策机制核心公式如下：

T_ttp＝lookup({T₁，T₂，...T_N})

其中，N代表输入的攻击向量个数，变量T_N代表基于BM25检索算法的ATT&CK模型对第N个攻击向量预测的TTP标签，函数lookup用于识别TTPs标签，识别结果赋值给变量T_ttp；如果高频标签出现的频次(标签的个数)不能占集合的一半以上，则函数l返回空，表示没有威胁。

在一些实施例中，为了解决现有技术中文开源威胁报告高质量标注数据较少的问题，提供了一个不依赖标注数据的攻击行为提取方法，同时从文本的词法、句法、语义三个层面展开分析，结合专家经验，完成中文威胁报告文本的攻击行为意图、方式以及时机特征的抽取，并将其表征为攻击向量，并作为语料用于训练ATT&CK映射模型，获取过程具体如下；

本实施例采用计算机编程语言通过Web应用程序测试的工具(如Selenium工具)的API接口实现了自动跳转至目标开源威胁信息平台的能力，并获取ATT&CK官网关于TTP描述信息，通过下载html文件格式保存数据；再对HTML文件进行文本解析，剔除HTML文件中包含的DOM(文档对象模型)的标签，例如“<tr>”，“<a class href＝xxx.png”，“<script”等，再剔除HTML文件中文本渲染的样式，如斜体、加粗、高亮等，并将提取的文本碎片按抽取顺序收尾拼接成一个完整文本；再进行常规性的文本预处理，包含但不限于：句子分割、文本去冗余、中文分词、去停用词、同义词替换、共指消歧、缺值补全等；然后将抽取出的威胁报告文本通过步骤S11-S13,及步骤S21-S23获得攻击向量，得到大量描述具体TTP标签的攻击向量集合，将该集合作为基于BM25的ATT&CK映射模型的语料。

在一些实施例中，为了解决中文开源自然语言处理工具不能满足中文开源威胁报告信息抽取精度的问题，在词法，句法，语义三个层面上进行领域信息同步强化，获得一个面向网络空间安全领域的自然语言处理工具，用于提升中文开源威胁报告解析效果，对中文开源自然语言处理工具的领域信息强化的过程具体如下所述；

步骤S41、采集中文开源威胁报告和ATT&CK官网上关于攻击者战略、战术、技术、防御措施及其攻击实例的描述文本；其中，网络威胁报告文本数据处理从多个开源信息平台爬取除了威胁报告之外的威胁数据，构成威胁情报语料，包含但不限于网络博文、朋友圈、社交论坛、技术博客、开源数据集等，并从中提取了大量威胁文本。

步骤S42、采用文本预处理方法对中文开源威胁报告和ATT&CK描述文本数据清洗，提取与网络攻击相关的威胁报告文本；

步骤S43、使用中文开源自然语言处理工具对威胁文本进行词法、句法、语义三个层面分析，提取描述攻击动作的动词词汇，构建成攻击动作词表；可参考图2所示，为本实施例提供的攻击动作词表构建过程图，具体构建步骤如下：

步骤S101、采用中文开源自然语言处理工具(如LTP工具)，对威胁文本进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注；

步骤S103、计算各攻击动作候选词汇在威胁情报语料中的tfidf值，并筛选tfidf值高(例如tfidf值设置的阈值为2)的攻击动作候选加入到攻击动作词表中，通过人工校验的方式构建攻击动作词表。

需要说明的是，攻击动作候选词汇对应的tfidf值代表该词汇在威胁情报语料中的重要程度，但并不局限与使用tfidf计算方法，如果有其他能够计算攻击动作候选词汇在威胁情报语料中的重要程度的方法，也适用于构建攻击动作词表。

步骤S44、使用中文开源自然语言处理工具对威胁文本进行词法、句法、语义三个层面分析，提取与攻击动作相关的攻击主体词汇，构建成攻击主体词表，参考图3所示，为本实施例提供的攻击主体词表构建过程图，具体构建步骤如下：

步骤S201、采用中文开源自然语言处理工具(如LTP工具)，对威胁文本进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注。

步骤S202、抽取威胁文本中满足词性标签为名词的词汇，依存句法结构中与名词关联的词汇以及语义角色为动作的实施角色和接收角色的词汇，并作为攻击主体候选词汇。

步骤S203、抽取威胁文本中包含攻击主体候选词的名词性短语，并作为攻击主体候选词汇，其中名词性短语抽取规则包含但不限定于：名词，名词+名词，数词+名词，形容词+名词的形式。

需要着重注意的是，攻击主体候选词汇对应的idf代表该词汇在威胁情报语料的稀有程度，但并不局限与使用idf计算方法，如果有其他能够计算攻击主体候选词汇在威胁情报语料中的稀有程度的方法，也适用于构建攻击主体词表。

步骤S45、使用攻击动作词表和攻击主体词表拓展中文开源自然语言处理能力，获得面向中文开源威胁情报的增强型自然语言处理工具；具体包括如下步骤：

首先使用攻击主体词表扩充开源自然语言处理工具的词库；其次对威胁文本进行词法、句法、语义层面的解析；提取威胁文本中的短语动词；最后判断动词短语是否在攻击动作词表中出现，如果出现在词表中，则返回威胁文本分词、依存句法分析、语义角色标注的结果；如果未出现在攻击动作词表中，返回空，本实施例，开源自然语言处理工具支持用户自定义词典，以保证自定词典中的每个词汇不会被分割；本技术利用该功能，上传了攻击主体词表，已保证网安领域专有词汇不会被分割。

需要着重注意的是，本实施例虽然在LTP的基础上进行了领域增强，但该网络空间安全领域知识增强技术不局限于LTP本身，其他具有中文断句、中文分词、词性标注、依存句法分析以及语义角色标注功能的自然语言处理工具或多种工具的组合均可使用该策略提升在网络空间安全领域的文本解析精度。

本实施例中，通过上述获得的增强型自然语言处理工具对威胁报告文本进行分词、词性标注、依存句法、语义角色标注，结合专家经验构建攻击向量提取规则，定制面向中文威胁情报句子层面的攻击行为抽取方法；构建攻击向量提取规则具体为构建语义角色标签与攻击向量维度的映射关系表的过程，并对照映射关系表开发攻击行为抽取方法。

本实施例提供的方法，通过中文开源自然语言处理工具对威胁报告文本进行词法、句法、语义三个层面分析，并基于预设的语义角色标签与攻击向量的映射关系，根据确定的语义角色标签获得代表威胁行为的攻击向量，最后挖掘攻击向量与ATT&CK之间的关联特征，完成ATT&CK映射，获得对应的威胁报告文本的TTP标签。

本实施例方法结合我国网络空间安全形势，从中文开源威胁报告出发，研究面向中文开源威胁报告的ATT&CK映射方法，能够从已公开的威胁事件中挖掘背后攻击者、攻击组织的行为意图、战略战术技术特点、攻击者动机等信息，能够提升我国网络空间态势感知水平。于此同时，以ATT&CK威胁框架为核心，对海量非结构化中文威胁报告进行深度分析，可以帮助安全分析师精准定位攻击相关主题报告，过滤无关、冗余信息获取，聚焦核心威胁信息。自动化处理过程能够提升威胁信息共享时效性。通过使用本实施例可以逐步摆脱依靠传统人工分析手段进行的威胁发现、预防的局限，还可以防护本地“实际已发生的攻击”，甚至将攻击防护前置到识别本地“潜在的威胁”。该方法的持续推广可以为提前干扰和反制对手入侵提供决策依据，间接提高对手攻击成本，降低对手攻击的效率和成功率。从整体上提升了既有安全产品及服务体系的完整性。该方法随着中文开源威胁高质量标注数据的不断积累或面向网络空间安全领域的自然语言处理工具性能的持续提升，ATT&CK映射方法的实际识别效果还将得到进一步提升。

装置实施例

根据本发明实施例，提供了一种面向中文威胁报告的ATT&CK模型映射装置，如图4所示，为本实施例提供的面向中文威胁报告的ATT&CK模型映射装置框图，根据本发明实施例的面向中文威胁报告的ATT&CK模型映射装置，包括：

攻击向量确定模块：基于预设的语义角色标签与攻击向量维度的映射关系表，抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段，将文本片段拼接成一个新的文本代表攻击向量；其中，攻击向量为表征攻击行为主体、意图、方式、动机以及时机特征的向量。

决策确定模块：将攻击向量输入至ATT&CK映射模型，从而获得对应的TTP标签，根据TTP标签确定解除威胁的TTP决策；

本实施例中，ATT&CK映射模型为基于BM25检索算法的模型，所述ATT&CK映射模型为通过计算带TTP标签的攻击向量数据中出现的词汇与每个带TTP标签的攻击向量的相关性程度。

在一实施例中，获取分析模块具体执行以下步骤：

步骤S13、通过经过网安领域知识增强后的中文开源自然语言处理工具对威胁报告文本进行句法依存分析和语义角色标注。

在一实施例中，攻击向量确定模块具体执行以下步骤：

步骤S23、对文本序列进行分词处理，获得各第二文本片段，根据预设的映射关系，得到各第二文本片段代表威胁信息的攻击向量，且攻击向量按照语序进行排列；其中，攻击向量的长度等同于攻击向量中出现的词汇个数。

在一实施例中，所述ATT&CK映射模型为基于BM25检索算法的模型，由于一个TTP标签对应多个攻击动作，而中文开源威胁报告中绝大多数情况是一句文本仅包含一个攻击动作，这就意味着模型想要识别完整准确的TTP结果，需要引入一个决策机制，其核心公式如下：

T_ttp＝lookup({T₁，T₂，...T_N})

其中，N代表参与决策的攻击向量个数，变量T_N代表基于BM25的ATT&CK模型对第N个攻击向量预测的TTP标签，函数lookup用于识别TTPs标签，识别结果赋值给变量T_ttp；如果高频标签出现的频次不能占集合的一半以上，则函数l返回空。

本实施例是与上述方法实施例对应的装置实施例，各个模块处理步骤的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。

如图5所示，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中一种面向中文威胁报告的ATT&CK模型映射方法，或者计算机程序被处理器执行时实现上述实施例中一种面向中文威胁报告的ATT&CK模型映射方法，所述计算机程序被所述处理器执行时实现如下方法步骤：

步骤S2、基于预设的语义角色标签与攻击向量维度的映射关系表，抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段，将文本片段拼接成一个新的文本代表攻击向量；其中，攻击向量为表征攻击行为主体、意图、方式、动机以及时机特征的向量；

步骤S3、将攻击向量输入至ATT&CK映射模型，从而获得对应的TTP标签，根据TTP标签确定解除威胁的TTP决策。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，且本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims

1.面向中文威胁报告的ATT&CK模型映射方法，其特征在于，包括以下步骤：

基于预设的语义角色标签与攻击向量维度的映射关系表，抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段，将文本片段拼接成一个新的文本代表攻击向量；其中，攻击向量为表征攻击行为主体、意图、方式、动机以及时机特征的向量；确定威胁报告文本各单句中各词汇的语义角色标签，并根据构建的语义角色标签与攻击向量维度的映射关系表中的映射关系，确定威胁报告文本各单句中带有与攻击向量维度相对应的语义角色标签所对应的第一文本片段；

对文本序列进行分词处理，获得各第二文本片段，根据预设的映射关系，得到各第二文本片段代表威胁信息的攻击向量，且攻击向量按照威胁报告文本各单句的语序进行排列；其中，攻击向量的长度等同于攻击向量中出现的第二文本片段的个数；将攻击向量输入至ATT&CK映射模型，获得对应的TTP标签，根据TTP标签确定解除威胁的TTP决策，其中

2.如权利要求1所述的面向中文威胁报告的ATT&CK模型映射方法，其特征在于，所述获取威胁报告文本，通过中文开源自然语言处理工具对威胁报告文本分析，并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注，具体为：

根据词性标注确定动词短语，并确定动词短语是否包含攻击动作词，如果包含则转下一步骤，若不包含，则丢弃该威胁报告文本；

通过中文开源自然语言处理工具对威胁报告文本进行句法依存分析和语义角色标注。

3.如权利要求1所述的面向中文威胁报告的ATT&CK模型映射方法，其特征在于，所述输入至ATT&CK映射模型中的攻击向量为：

4.如权利要求1所述的面向中文威胁报告的ATT&CK模型映射方法，其特征在于，所述ATT&CK映射模型中设置一个决策机制，其核心公式如下：

T_ttp＝lookup({T₁,T₂,…T_N})

5.如权利要求1所述的面向中文威胁报告的ATT&CK模型映射方法，其特征在于，还包括对中文开源自然语言处理工具的领域信息强化的方法包括步骤：

6.如权利要求5所述的面向中文威胁报告的ATT&CK模型映射方法，其特征在于，所述攻击动作词表构建过程具体为：

7.如权利要求5所述的面向中文威胁报告的ATT&CK模型映射方法，其特征在于，所述攻击主体词表构建过程具体为：

步骤S203、抽取威胁文本中包含攻击主体候选词的名词性短语，其中名词性短语抽取规则包含：名词，名词+名词，数词+名词和/或形容词+名词的形式；

8.面向中文威胁报告的ATT&CK模型映射装置，其特征在于，包括：

ATT&CK映射模型为基于BM25检索算法的模型，所述ATT&CK映射模型为通过计算带TTP标签的攻击向量数据中出现的词汇与每个带TTP标签的攻击向量的相关性程度；

所述攻击向量确定模块具体执行以下操作：