CN112818126B

CN112818126B - 网络安全语料库构建模型的训练方法、应用方法及装置

Info

Publication number: CN112818126B
Application number: CN202110412385.2A
Authority: CN
Inventors: 周子楠
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Tianji Youmeng Information Technology Co.,Ltd.
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-08-17
Anticipated expiration: 2041-04-16
Also published as: CN112818126A

Abstract

本申请提出一种网络安全语料库构建模型的训练方法、应用方法及装置，该方法包括：获取训练集，训练集包括标注了实体类别和战术类别的威胁情报；搭建网络安全语料库的构建模型的结构，构建模型包括采用多任务深度神经网络和双注意力机制的战术分类模块；根据训练集训练构建模型。本申请训练了网络安全语料库的构建模型，在战术分类方面引入双注意力机制来优化多任务深度神经网络，提高模型的准确率和稳定性。同时还采用同义词和战术关键词检索进行战术分类，提升战术分类的鲁棒性和准确性。在实体分类方面，剔除修饰性的词，过滤冗余信息，提高计算效率，结合知识图谱提高实体分类的准确性。实现了网络安全领域大数据量的语料库构建。

Description

网络安全语料库构建模型的训练方法、应用方法及装置

技术领域

本申请属于信息安全技术领域，具体涉及一种网络安全语料库构建模型的训练方法、应用方法及装置。

背景技术

随着大数据时代的发展和网络安全环境的日趋复杂，出现了大量与网络安全相关的威胁情报，如网络告警信息、网络监测日志、安全事件报告、安全社区博客等。将海量的威胁情报进行分类分析总结非常重要。

相关技术中，通过人工基于ATT&CK(Adversarial Tactics，Techniques，andCommon Knowledge，对抗性战术、技术和公共知识)对威胁情报进行实体及战术类别分类，人工分类工程量巨大，效率很低。

发明内容

本申请提出一种网络安全语料库构建模型的训练方法、应用方法及装置，本申请训练了网络安全语料库的构建模型，在战术分类方面引入双注意力机制来优化多任务深度神经网络，提高模型的准确率和稳定性。

本申请第一方面实施例提出了一种网络安全语料库构建模型的训练方法，包括：

获取训练集，所述训练集包括标注了实体类别和战术类别的威胁情报；

搭建网络安全语料库的构建模型的结构，所述构建模型包括采用多任务深度神经网络和双注意力机制的战术分类模块；

根据所述训练集包括的所述威胁情报，训练所述构建模型。

在本申请的一些实施例中，所述搭建网络安全语料库的构建模型的结构，包括：

将词性标记层、实体-关系提取层、知识图谱检索层及实体类别输出层依次连接，得到实体分类模块；

将同义词库检索层、关键词检索层及链式分类模型均与战术类别输出层连接，得到所述战术分类模块；所述链式分类模型包括所述多任务深度神经网络和所述双注意力机制；

将所述实体分类模块和所述战术分类模块均与损失层连接。

在本申请的一些实施例中，所述根据所述训练集包括的所述威胁情报，训练所述构建模型，包括：

从所述训练集中获取预设数量的威胁情报；

将获取的所述威胁情报分别输入所述实体分类模块和所述战术分类模块中；

通过所述实体分类模块识别所述威胁情报包括的实体对应的实体类别；

通过所述战术分类模块识别所述威胁情报采用的战术对应的战术类别；

根据识别出的所述实体类别及所述战术类别，通过所述损失层计算当前训练周期对应的损失值。

在本申请的一些实施例中，所述通过所述实体分类模块识别所述威胁情报包括的实体对应的实体类别，包括：

通过所述词性标记层标记所述威胁情报中每个词的词性；

从所述威胁情报中剔除词性为预设修饰词性的词；

通过所述实体-关系提取层提取剔除操作后的所述威胁情报中包括的实体信息；

通过所述知识图谱检索层确定所述实体信息对应的实体类别；

通过所述实体类别输出层输出所述实体信息对应的所述实体类别。

在本申请的一些实施例中，所述通过所述知识图谱检索层确定所述实体信息对应的实体类别，包括：

根据所述实体信息，通过所述知识图谱检索层查询预设知识图谱中是否包含所述实体信息对应的实体类别；

如果是，则从所述预设知识图谱中获取所述实体信息对应的实体类别；

如果否，则根据剔除操作后的所述威胁情报，生成所述威胁情报对应的词向量；通过所述知识图谱检索层查询预设向量检索库中是否包含与所述词向量之间的相似度大于预设阈值的词向量；如果是，则将所述相似度大于预设阈值的词向量对应的实体类别确定为所述实体信息对应的实体类别；如果否，则将所述实体信息对应的实体类别设置为预设实体类别。

在本申请的一些实施例中，所述通过所述战术分类模块识别所述威胁情报采用的战术对应的战术类别，包括：

从所述威胁情报中提取动词短语；根据所述动词短语和预设同义词库，通过所述同义词库检索层获取所述威胁情报对应的第一战术分类结果；

根据所述威胁情报和预设战术关键词库，通过所述关键词检索层获取所述威胁情报对应的第二战术分类结果；

通过所述链式分类模型获取所述威胁情报对应的第三战术分类结果；

根据所述第一战术分类结果、所述第二战术分类结果和所述第三战术分类结果，通过所述战术类别输出层确定所述威胁情报采用的战术对应的战术类别。

在本申请的一些实施例中，所述通过所述链式分类模型获取所述威胁情报对应的第三战术分类结果，包括

将所述威胁情报中标注了实体类别的词用第一预设字符与其他词分隔开，以及将标注了战术类别的词用第二预设字符与其他词分隔开；

通过所述链式分类模型包括的所述多任务深度神经网络对所述威胁情报进行编码，得到对应的词向量矩阵；

通过所述链式分类模型包括的所述双注意力机制确定所述词向量矩阵中每个词向量对应的注意力权重；

根据所述每个词向量及所述每个词向量对应的注意力权重，通过所述多任务深度神经网络包括的文本对分类器计算所述威胁情报包括的战术属于各个战术类别的概率；

将概率最大的战术类别确定为所述威胁情报对应的第三战术分类结果。

本申请第二方面的实施例提供了一种网络安全语料库构建模型的应用方法，所述构建模型是采用上述第一方面所述的训练方法训练的，所述应用方法包括：

获取待分析的威胁情报；

通过所述构建模型确定待分析的所述威胁情报包括的实体和战术，以及确定所述实体对应的实体类别、所述战术对应的战术类别；

将所述威胁情报、所述实体及对应的实体类别、所述战术及对应的战术类别存储在网络安全语料库中。

本申请第三方面的实施例提供了一种网络安全语料库构建模型的训练装置，包括：

数据获取模块，用于获取训练集，所述训练集包括标注了实体类别和战术类别的威胁情报；

模型搭建模块，用于搭建网络安全语料库的构建模型的结构，所述构建模型包括采用多任务深度神经网络和双注意力机制的战术分类模块；

模型训练模块，用于根据所述训练集包括的所述威胁情报，训练所述构建模型。

本申请第四方面的实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以实现上述第一方面或第二方面所述的方法。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

在本申请实施例中，训练了网络安全语料库的构建模型，该构建模型在战术分类方面引入双注意力机制来优化多任务深度神经网络，提高模型的准确率和稳定性。在多任务深度神经网络加双注意力机制来进行战术分类的同时，还采用同义词检索和战术关键词检索的方式进行战术分类，提升战术分类的鲁棒性和准确性。在实体分类方面，剔除修饰性的词，过滤冗余信息，提高计算效率，且结合知识图谱进行实体分类，提高实体分类的准确性。通过训练该构建模型实现了网络安全领域大数据量的语料库构建，为威胁情报智能化的基础设施建设提供了重要助力。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变的明显，或通过本申请的实践了解到。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请一实施例所提供的一种网络安全语料库构建模型的训练方法的流程图；

图2示出了本申请一实施例所提供的威胁情报实体分类及实体间的关系示意图；

图3示出了本申请一实施例所提供的网络安全语料库构建模型的结构示意图；

图4示出了本申请一实施例所提供的多任务深度神经网络MT-DNN的结构示意图；

图5示出了本申请一实施例所提供的一种网络安全语料库构建模型的应用方法的流程图；

图6示出了本申请一实施例所提供的网络安全语料库构建模型的应用方法的另一流程图；

图7示出了本申请一实施例所提供的一种网络安全语料库构建模型的训练装置的结构示意图；

图8示出了本申请一实施例所提供的一种网络安全语料库构建模型的应用装置的结构示意图；

图9示出了本申请一实施例所提供的一种电子设备的结构示意图；

图10示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

下面结合附图来描述根据本申请实施例提出的一种网络安全语料库构建模型的训练方法、应用方法及装置。

本申请实施例提供了一种网络安全语料库构建模型的训练方法，该方法训练了网络安全语料库的构建模型，该构建模型在战术分类方面引入双注意力机制来优化多任务深度神经网络，提高模型的准确率和稳定性。在多任务深度神经网络加双注意力机制来进行战术分类的同时，还采用同义词检索和战术关键词检索的方式进行战术分类，提升战术分类的鲁棒性和准确性。在实体分类方面，剔除修饰性的词，过滤冗余信息，提高计算效率，且结合知识图谱进行实体分类，提高实体分类的准确性。

参见图1，该方法具体包括以下步骤：

步骤101：获取训练集，该训练集包括标注了实体类别和战术类别的威胁情报。

首先获取大量的威胁情报，通过人工标注这些威胁情报中包括的实体对应的实体类别，以及标注这些威胁情报中所采用的战术对应的战术类别。

本申请实施例中，依据安全领域的专业知识，将威胁情报中提到的实体划分为图2所示的威胁组织、恶意软件、工具和攻击模式四大类。图2示出了威胁情报实体分类及实体间的关系，即威胁组织直接采用工具，或者威胁组织依赖于恶意软件来采用工具，由威胁组织控制攻击模式。四大类中再细分为对应的小类别，每个大类包括的小类别如下所示：

•威胁组织：角色、攻击资源级别和攻击水平。

•恶意软件：利用技术，关联组织、执行环境和版本。

•工具：别称、执行环境、关联组织和版本。

•攻击模式：战术目标、影响平台和权限要求。

通过人工确定每个威胁情报中每句话包括的实体所属的大类及小类，并在威胁情报中标注出每句话包括的实体所对应的实体类别。在进行数据标注的同时，还整理威胁组织、恶意软件、工具和攻击模式的实体信息，该实体信息包括威胁情报中表示实体的词或短语等，将该实体信息及其对应的实体类别存储到预设知识图谱中。同时通过预训练模型BERT（Bidirectional Encoder Representations from Transformers）对威胁情报进行词嵌入，生成威胁情报对应的词向量，并将威胁情报对应的词向量和实体类别存储到预设向量检索库中。该预设向量检索库可以是基于Milvus构建的，用于提供基于文本相似度的文本检索服务，便于查找到语义相近的文本对应的实体类别。

上述威胁情报中标注的实体类别，预设知识图谱中包括的实体类别，以及预设向量检索库中包括的实体类别，均以预设的用于表示实体类别的标识进行表示，如用“APT28”来表示实体类别“威胁组织”。

对于战术类别，本申请实施例采用ATT&CK框架中的14种战术类别，并为每种战术类别设置了对应的序号。例如，这14种战术类别对应的序号可以如下所示：{“Unknown”:0，“侦测”:1，“资源开发”:2，“初始化访问”:3，“执行”:4，“持久化”:5，“提权”:6，“防御绕过”:7，“凭证访问”:8，“发现”:9，“横向移动”:10，“收集”:11，“命令和控制”:12，“数据渗出”:13，“施加影响”:14}。

通过人工确定威胁情报中每句话提到的战术所属的战术类别，并在威胁情报的每句话中标注确定的战术类别对应的序号。在标注战术类别的过程中，还整理战术的同义词，将整理的同义词存储在预设同义词库中。例如，在标注战术类别的过程中整理出“数据渗出”的同义词：“数据窃取”和“偷数据”，则将“数据渗出”、“数据窃取”和“偷数据”作为一组战术同义词存储在预设同义词库中。

通过上述方式人工标注出每个威胁情报中每句话中包括的实体对应的实体类别及包括的战术对应的战术类别，将标注好的所有威胁情报组成训练集。以及通过上述方式准备好预设知识图谱、预设向量检索库以及预设同义词库之后，即可利用获得的训练集进行模型训练。

步骤102：搭建网络安全语料库的构建模型的结构，该构建模型包括采用多任务深度神经网络和双注意力机制的战术分类模块。

具体地，将词性标记层、实体-关系提取层、知识图谱检索层及实体类别输出层依次连接，得到实体分类模块。将同义词库检索层、关键词检索层及链式分类模型均与战术类别输出层连接，得到战术分类模块。其中，链式分类模型包括多任务深度神经网络和双注意力机制。将实体分类模块和战术分类模块均与损失层连接。该构建模型的结构具体如图3所示，其中损失层采用KL（Kullback-Leibler Divergence）散度作为损失函数。

步骤103：根据训练集包括的威胁情报，训练搭建的构建模型。

本申请实施例对构建模型进行预设次数个周期的训练，每个周期的训练操作均相同，因此仅通过如下步骤S1-S5的操作来说明一个周期的训练过程。预设次数可以为200或500等。

S1：从训练集中获取预设数量的威胁情报。

网络安全语料库的构建模型能够同时处理多个威胁情报，同时处理威胁情报的数目为该构建模型支持的批处理数量（batchsize）。在当前训练周期，从步骤101获得的训练集中获取预设数量的威胁情报。该预设数量即为该构建模型支持的批处理数量，预设数量可以为10或20等。

S2：将获取的威胁情报分别输入实体分类模块和战术分类模块中，然后并行执行步骤S3和S4。

如图3所示，将获取的威胁情报输入实体分类模块包括的词性标记层中，同时将获取的威胁情报输入战术分类模块中的同义词库检索层、关键词检索层及链式分类模型中。通过实体分类模块和战术分类模块并行地对威胁情报进行实体分类及战术分类，提高处理速度，威胁情报的实体及战术分类效率很高。且战术分类模块中通过同义词库检索层、关键词检索层及链式分类模型并行对威胁情报进行战术分类，提高战术分类的处理速度，也提高了战术分类的鲁棒性和准确性。

S3：通过实体分类模块识别威胁情报包括的实体对应的实体类别。

首先通过词性标记层标记威胁情报中每个词的词性。由于实体的词性多数为名词，因此从标记词性后的威胁情报中剔除词性为预设修饰词性的词，从而过滤掉威胁情报中的冗余信息，减少计算量，提高计算效率。

然后通过实体-关系提取层提取剔除操作后的威胁情报中包括的实体信息，该实体信息包括威胁情报的句子中包含的实体以及实体间的关系，具体该实体信息可以为<实体-关系-实体>的三元组。在本申请实施例中，实体-关系提取层包括用于提取实体信息的网络模型，该网络模型可以为ALBERT（A Little BERT）、Bi-LSTM（双向长短时记忆算法）和CRF（Conditional Random Field ，条件随机场）组成的模型。通过该网络模型来提取威胁情报中的实体信息。

提取出实体信息之后，通过知识图谱检索层确定该实体信息对应的实体类别。在步骤101中人工标注威胁情报时同步构建了威胁组织、恶意软件、工具和攻击模式的预设知识图谱。根据上述提取的实体信息，通过知识图谱检索层查询预设知识图谱中是否包含该实体信息对应的实体类别。如果是，则从预设知识图谱中获取该实体信息对应的实体类别。然后通过实体类别输出层输出该实体信息对应的实体类别。

在步骤101中人工标注威胁情报时还同步构建了包含大量威胁情报对应的词向量及实体类别的预设向量检索库。如果在预设知识图谱中未检索到该实体信息对应的实体类别，则根据剔除预设修饰词性的词以后的威胁情报，通过BERT模型生成威胁情报对应的词向量。通过知识图谱检索层查询预设向量检索库中是否包含与威胁情报的词向量之间的相似度大于预设阈值的词向量。如果是，则将相似度大于预设阈值的词向量对应的实体类别确定为威胁情报的实体信息对应的实体类别，通过实体类别输出层输出该实体信息对应的实体类别。如果在预设向量检索库中未检索到与威胁情报的词向量之间的相似度大于预设阈值的词向量，则将该威胁情报的实体信息对应的实体类别设置为预设实体类别，通过实体类别输出层输出该实体信息对应的实体类别。该预设实体类别可以为空、未知或unknown等。

在本申请实施例中，对于实体分类模块识别的实体类别为上述预设实体类别的威胁情报，将这些威胁情报及其对应的实体信息存储在指定位置，如存储在指定的磁盘中。每隔预设时间段通过人工分析这些被识别为预设实体类别的威胁情报，并改进实体分类模块。

S4：通过战术分类模块识别威胁情报采用的战术对应的战术类别。

由于战术通常为动词，因此通过自然语言处理工具对威胁情报进行分句处理，从威胁情报中提取动词短语。根据提取的动词短语和预设同义词库，通过同义词库检索层获取该威胁情报对应的第一战术分类结果。即通过同义词库检索层在预设同义词库中检索提取的动词短语的同义词，将检索出的同义词对应的战术类别确定为提取的动词短语对应的战术类别。其中，第一战术分类结果包括确定出的动词短语对应的战术类别。

与上述同义词检索操作并行处理，还根据威胁情报和预设战术关键词库，通过关键词检索层获取该威胁情报对应的第二战术分类结果。即通过关键词检索层在预设战术关键词库中检索威胁情报中的分词，从预设战术关键词库中获取检索到的分词对应的战术类别，将获取的战术类别确定为该威胁情报对应的战术类别。其中，第二战术分类结果包括确定出的分词对应的战术类别。

与上述同义词检索和战术关键词检索操作并行处理，还通过链式分类模型获取威胁情报对应的第三战术分类结果。具体地，将该威胁情报中标注了实体类别的词用第一预设字符与其他词分隔开，以及将标注了战术类别的词用第二预设字符与其他词分隔开。第一预设字符可以为#、*、&等，第二预设字符可以为@、$、^等，第一预设字符与第二预设字符为不同的字符。通过特定的字符将实体和战术的词与其他词分隔开，以方便后续链式分类模型调用威胁情报，并对其进行分析处理。

通过链式分类模型包括的多任务深度神经网络对威胁情报进行编码，得到对应的词向量矩阵。通过链式分类模型包括的双注意力机制确定词向量矩阵中每个词向量对应的注意力权重。根据每个词向量及每个词向量对应的注意力权重，通过多任务深度神经网络包括的文本对分类器计算威胁情报包括的战术属于各个战术类别的概率。将概率最大的战术类别确定为威胁情报对应的第三战术分类结果。第三战术分类结果中包括上述概率最大的战术类别。

在本申请实施例中，链式分类模型包括多任务深度神经网络MT-DNN（Multi-TaskDeep Neural Networks）和双注意力机制Dual Attention。链式分类模型结合了语言模型预训练和多任务学习策略两种提高模型性能的手段，加快了训练速度和增加了模型效果，成功解决了安全领域标注数据稀缺的情况。MT-DNN的训练分成预训练和多任务学习两个阶段。预训练的任务与BERT一致，其目的是进行词嵌入，将一句话转化为向量的形式，同时每个词向量都包含这句话中的信息。根据每个词位置信息、词的自身信息和词之间的关系信息这三个信息决定词向量数值间的差异。多任务学习阶段使得MT-DNN对安全领域的任务进行finetune（微调）效果更好，特别是数据量小的情况下。MT-DNN的结构如图4所示，输入威胁情报的一个句子或一组句子，输入层lexiconencoder根据句子中的词、词的位置等对句子进行编码，得到对应的卷积向量。中间层Transformerencoder（文本卷积层）对输入数据进行编码，得到文本卷积向量，即每个词对应的词向量。MT-DNN为多任务学习模型，如图4所示包括单据文本分类、文本对分类、文本相似度度量和相关度排序共四个任务场景，本申请实施例中选择文本对分类任务。该模型不直接使用中间层文本卷积层的输出作为文本对分类层的输入，而是使用Stochasticanswernetwork（SAN）模型的输出层作为最后文本对分类层的输入。

双注意力机制Dual Attention包括两个部分：positionattentionmodule学习空间特征的相关性和channelattentionmodule建模通道的相关性。其作用是在预测目标词时，自动获取原句中不同位置的语义信息，并给每个位置信息的语义赋予一个权重，达到信息对齐的目的。

在文本对分类器进行战术分类时，通过如下公式（1）计算每次迭代威胁情报所采用的战术属于各类战术类别的概率。

在公式（1）中，k为迭代的周期数，r为战术类别的序号，

为第k个周期内威胁情报采用的战术属于第r个战术类别的概率，C为惩罚参数，W为注意力权重，s为第k个周期的状态，x为自变量。

链式分类模型最终输出的结果为k个周期的输出值的平均值，如公式（2）所示，

链式分类模型的输入为威胁情报中的句子，输出为该句子中的战术为各战术类别的概率，将概率最大的战术类别确定为威胁情报对应的第三战术分类结果。第三战术分类结果中包括上述概率最大的战术类别。

通过同义词库检索层、关键词检索层及链式分类模型并行处理威胁情报，得到第一战术分类结果、所述第二战术分类结果和所述第三战术分类结果后，根据第一战术分类结果、第二战术分类结果和第三战术分类结果，通过战术类别输出层确定威胁情报采用的战术对应的战术类别。具体地，分别确定第一战术分类结果、第二战术分类结果和第三战术分类结果中每种战术类别在获得的所有战术类别中所占的比重；若获得的各战术类别所占比重不均相等，则将所占比重最大的战术类别确定为威胁情报采用的战术对应的战术类别；若获得的各战术类别所占比重均相等，则将威胁情报采用的战术设置为预设战术类别。预设战术类别可以为空、未知或unknown等。

S5：根据识别出的实体类别及战术类别，通过损失层计算当前训练周期对应的损失值。

通过上述步骤S3和S4并行处理识别出威胁情报中实体所属的实体类别及战术所属的战术类别后，将识别出的实体类别和战术类别输入损失层中。为实现实体类别分类和战术分类的联合训练，本申请实施例中损失层使用KL散度作为损失函数，进行多任务联合训练。

计算出当前训练周期的损失值后，将当前记录的已训练周期数加一。判断加一后的已训练周期数是否大于预设次数，如果是，则停止训练，从已训练周期中选择损失值最小的周期。将损失值最小的周期对应的模型参数和该构建模型的结构组成训练好的构建模型。如果判断出已训练周期数小于或等于预设次数，则根据当前训练周期的损失值，调整模型参数。然后根据调整后的模型参数，进行下一周期的训练，直至已训练周期数达到预设次数时得到训练好的构建模型。

本申请实施例提供了另一种网络安全语料库构建模型的应用方法，该方法所采用的网络安全语料库的构建模型即为通过上述任一实施例所述的训练方法训练得到的。如图5所示，该应用方法具体包括：

步骤201：获取待分析的威胁情报。

步骤202：通过训练好的构建模型确定待分析的威胁情报包括的实体和战术，以及确定实体对应的实体类别、战术对应的战术类别。

将待分析的威胁情报输入训练好的构建模型中，通过构建模型包括的实体分类模块识别该威胁情报包括的实体所属的实体类别，以及通过构建模型包括的战术分类模块识别该威胁情报采用的战术所属的战术类别。

步骤203：将该威胁情报、实体及对应的实体类别、战术及对应的战术类别存储在网络安全语料库中。

经过训练好的网络安全语料库的构建模型通过图6所示的流程执行语料库的自动化构建。

在本申请实施例中，通过训练好的网络安全语料库的构建模型自动化构建威胁情报实体和战术关系的语料库，该构建模型在战术分类方面引入双注意力机制来优化多任务深度神经网络，提高模型的准确率和稳定性。在多任务深度神经网络加双注意力机制来进行战术分类的同时，还采用同义词检索和战术关键词检索的方式进行战术分类，提升战术分类的鲁棒性和准确性。在实体分类方面，剔除修饰性的词，过滤冗余信息，提高计算效率，且结合知识图谱进行实体分类，提高实体分类的准确性。通过训练该构建模型实现了网络安全领域大数据量的语料库构建，为威胁情报智能化的基础设施建设提供了重要助力。

本申请实施例还提供一种网络安全语料库构建模型的训练装置，该装置用于执行上述任一实施例提供的网络安全语料库构建模型的训练方法。参见图7，该装置包括：

数据获取模块701，用于获取训练集，训练集包括标注了实体类别和战术类别的威胁情报；

模型搭建模块702，用于搭建网络安全语料库的构建模型的结构，构建模型包括采用多任务深度神经网络和双注意力机制的战术分类模块；

模型训练模块703，用于根据训练集包括的威胁情报，训练构建模型。

模型搭建模块702，用于将词性标记层、实体-关系提取层、知识图谱检索层及实体类别输出层依次连接，得到实体分类模块；将同义词库检索层、关键词检索层及链式分类模型均与战术类别输出层连接，得到战术分类模块；链式分类模型包括多任务深度神经网络和双注意力机制；将实体分类模块和战术分类模块均与损失层连接。

模型训练模块703，用于从训练集中获取预设数量的威胁情报；将获取的威胁情报分别输入实体分类模块和战术分类模块中；通过实体分类模块识别威胁情报包括的实体对应的实体类别；通过战术分类模块识别威胁情报采用的战术对应的战术类别；根据识别出的实体类别及战术类别，通过损失层计算当前训练周期对应的损失值。

模型训练模块703，用于通过词性标记层标记威胁情报中每个词的词性；从威胁情报中剔除词性为预设修饰词性的词；通过实体-关系提取层提取剔除操作后的威胁情报中包括的实体信息；通过知识图谱检索层确定实体信息对应的实体类别；通过实体类别输出层输出实体信息对应的实体类别。

模型训练模块703，用于根据实体信息，通过知识图谱检索层查询预设知识图谱中是否包含实体信息对应的实体类别；如果是，则从预设知识图谱中获取实体信息对应的实体类别；如果否，则根据剔除操作后的威胁情报，生成威胁情报对应的词向量；通过知识图谱检索层查询预设向量检索库中是否包含与词向量之间的相似度大于预设阈值的词向量；如果是，则将相似度大于预设阈值的词向量对应的实体类别确定为实体信息对应的实体类别；如果否，则将实体信息对应的实体类别设置为预设实体类别。

模型训练模块703，用于从威胁情报中提取动词短语；根据动词短语和预设同义词库，通过同义词库检索层获取威胁情报对应的第一战术分类结果；根据威胁情报和预设战术关键词库，通过关键词检索层获取威胁情报对应的第二战术分类结果；通过链式分类模型获取威胁情报对应的第三战术分类结果；根据第一战术分类结果、第二战术分类结果和第三战术分类结果，通过战术类别输出层确定威胁情报采用的战术对应的战术类别。

模型训练模块703，用于将威胁情报中标注了实体类别的词用第一预设字符与其他词分隔开，以及将标注了战术类别的词用第二预设字符与其他词分隔开；通过链式分类模型包括的多任务深度神经网络对威胁情报进行编码，得到对应的词向量矩阵；通过链式分类模型包括的双注意力机制确定词向量矩阵中每个词向量对应的注意力权重；根据每个词向量及每个词向量对应的注意力权重，通过多任务深度神经网络包括的文本对分类器计算威胁情报包括的战术属于各个战术类别的概率；将概率最大的战术类别确定为威胁情报对应的第三战术分类结果。

本申请的上述实施例提供的网络安全语料库构建模型的训练装置与本申请实施例提供的网络安全语料库构建模型的训练方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施例还提供一种网络安全语料库构建模型的应用装置，该装置用于执行上述任一实施例提供的网络安全语料库构建模型的应用方法。参见图8，该装置包括：

获取模块801，用于获取待分析的威胁情报；

分类模块802，用于通过构建模型确定待分析的威胁情报包括的实体和战术，以及确定实体对应的实体类别、战术对应的战术类别；

存储模块803，用于将威胁情报、实体及对应的实体类别、战术及对应的战术类别存储在网络安全语料库中。

本申请的上述实施例提供的网络安全语料库构建模型的应用装置与本申请实施例提供的网络安全语料库构建模型的应用方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种电子设备，以执行上述网络安全语料库构建模型的训练方法或执行上述网络安全语料库构建模型的应用方法。请参考图9，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图9所示，电子设备9包括：处理器900，存储器901，总线902和通信接口903，所述处理器900、通信接口903和存储器901通过总线902连接；所述存储器901中存储有可在所述处理器900上运行的计算机程序，所述处理器900运行所述计算机程序时执行本申请前述任一实施方式所提供的网络安全语料库构建模型的训练方法或应用方法。

其中，存储器901可能包含高速随机存取存储器（RAM：Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口903（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线902可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器901用于存储程序，所述处理器900在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述网络安全语料库构建模型的训练方法或应用方法可以应用于处理器900中，或者由处理器900实现。

处理器900可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器900中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器900可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器901，处理器900读取存储器901中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的网络安全语料库构建模型的训练方法或应用方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的网络安全语料库构建模型的训练方法或应用方法对应的计算机可读存储介质，请参考图10，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的网络安全语料库构建模型的训练方法或应用方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的网络安全语料库构建模型的训练方法或应用方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下示意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种网络安全语料库构建模型的训练方法，其特征在于，包括：

根据所述训练集包括的所述威胁情报，训练所述构建模型；

其中，所述搭建网络安全语料库的构建模型的结构，包括：

将所述实体分类模块和所述战术分类模块均与损失层连接；

所述根据所述训练集包括的所述威胁情报，训练所述构建模型，包括：

从所述训练集中获取预设数量的威胁情报；将获取的所述威胁情报分别输入所述实体分类模块和所述战术分类模块中；通过所述实体分类模块识别所述威胁情报包括的实体对应的实体类别；通过所述战术分类模块识别所述威胁情报采用的战术对应的战术类别；根据识别出的所述实体类别及所述战术类别，通过所述损失层计算当前训练周期对应的损失值。

2.根据权利要求1所述的训练方法，其特征在于，所述通过所述实体分类模块识别所述威胁情报包括的实体对应的实体类别，包括：

通过所述词性标记层标记所述威胁情报中每个词的词性；

从所述威胁情报中剔除词性为预设修饰词性的词；

3.根据权利要求2所述的训练方法，其特征在于，所述通过所述知识图谱检索层确定所述实体信息对应的实体类别，包括：

4.根据权利要求1所述的训练方法，其特征在于，所述通过所述战术分类模块识别所述威胁情报采用的战术对应的战术类别，包括：

5.根据权利要求4所述的训练方法，其特征在于，所述通过所述链式分类模型获取所述威胁情报对应的第三战术分类结果，包括

6.一种网络安全语料库构建模型的应用方法，其特征在于，所述构建模型是采用权利要求1-5任一项所述的训练方法训练的，所述应用方法包括：

获取待分析的威胁情报；

7.一种网络安全语料库构建模型的训练装置，其特征在于，包括：

模型训练模块，用于根据所述训练集包括的所述威胁情报，训练所述构建模型；

其中，所述搭建网络安全语料库的构建模型的结构，包括：

将所述实体分类模块和所述战术分类模块均与损失层连接；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现如权利要求1-5任一项所述的方法。