CN113919351A

CN113919351A - 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置

Info

Publication number: CN113919351A
Application number: CN202111151177.8A
Authority: CN
Inventors: 黄克振; 连一峰; 张海霞; 彭媛媛; 刘倩
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-11

Abstract

本发明公开了一种基于迁移学习的网络安全命名实体和关系联合抽取方法及装置，包括：对网络安全威胁情报进行网络安全命名实体及关系联合标注，构建网络安全威胁情报语料库；基于自然语言语料库预训练深度神经网络；将预训练深度神经网络与一分类器组合，构建初始联合抽取模型；基于网络安全威胁情报语料库，对初始联合抽取模型进行训练；将目标数据输入训练好的联合抽取模型，得到网络安全命名实体和关系联合抽取结果。本发明能够同时标注网络安全命名实体和关系，有效规避先实体后关系的串行抽取模式存在的误差传递问题，降低网络安全领域实体及关系抽取对专家经验的依赖，增强模型的移植性，减少网络安全领域内标注数据集少对模型训练带来的困扰。

Description

基于迁移学习的网络安全命名实体和关系联合抽取方法及装置

技术领域

本发明属于网络安全技术领域，尤其涉及一种基于迁移学习的网络安全命名实体和关系联合抽取方法及装置。

背景技术

随着信息技术的飞速发展，网络攻击者可利用的零日漏洞、攻击方法、隐藏手段均呈现出多元化和多样化的发展趋势。新型的攻击趋势带来了严峻的攻击后果，如国内外高级持续性威胁(APT，Advanced Persistent Threat)相关公开报告的数量逐年增加。新的攻击形势和严重的攻击后果凸显出传统单点防护的弊端越来越明显，无法及时准确地应对新出现的网络安全威胁，攻防不对称态势也越来越严重。

网络安全威胁情报作为一种针对已存在或即将出现的对资产构成威胁或危害的背景、机制、指标、影响和可以实施的防护建议等证据知识，可以为资产拥有者针对威胁或危害做出防护决策的依据，在一定程度上缓解了攻防不对称的态势，典型的如abuse.ch针对臭名昭著的僵尸网络Zeus进行追踪，并将新发现的命令和控制(C&C)服务器作为结构化网络安全威胁情报进行共享，从而对全球僵尸网络Zeus的防御起到了重要作用。

网络安全威胁情报按照结构形式分类，可分为结构化网络安全威胁情报和非结构化网络安全威胁情报，其中，结构化网络安全威胁情报的信息准确、规范性强，但由于缺少大量的网络安全威胁背景信息，不易与其他网络安全威胁情报数据关联分析；非结构化网络安全威胁情报具有丰富的网络安全威胁背景信息，但多以文档报告的形式出现，在利用机器进行关联分析之前，需将非结构化网络安全威胁情报转化为机读情报，当前非结构化网络安全威胁情报向机读情报的转化过程过度依赖于专家抽取经验，移植性较差。在通用实体和关系抽取领域，多采用先抽取实体信息，然后基于抽取的实体信息进一步抽取关系，这种串行的抽取方式存在误差传递的问题，例如中国专利申请CN113128227A公开了一种实体抽取方法及装置，该专利仅能抽取实体信息，无法进行关系信息的抽取；如中国专利申请CN112926325A公开了一种基于BERT神经网络的中文任务关系抽取，该专利仅能抽取人物关系信息，无法进行实体信息的抽取；如中国专利申请CN113158676A公开了专业实体与关系联合抽取方法、系统及电子、中国专利申请CN111798987A公开了一种实体关系抽取方法和设备，二者均是先抽取实体信息，而后基于实体的信息进行关系抽取，存在误差传递的问题；

针对上述非结构化网络安全威胁情报向机读情报转化的问题，本专利提出一种基于迁移学习的网络安全威胁情报联合抽取方法。该方法首先利用自然语言领域语料训练深度神经网络结构以学习词语特征表示向量，然后基于网络安全威胁情报标注数据集训练优化深度神经网络结构，同时基于深度神经网络结构输出的词语特征表示向量利用条件随机场进行标签分类，优化后的深度神经网络和条件随机场组合形成最终的网络安全命名实体和实体间关系的抽取模型，最后，针对新的非结构化网络安全威胁情报，利用抽取模型完成网络安全命名实体和实体间关系的抽取，实现非结构化网络安全威胁情报向机读情报自动转化的目的。

发明内容

本发明的目的是提供一种基于迁移学习的网络安全命名实体和关系联合抽取方法及装置，利用自然语言领域语料和少量的网络安全威胁情报标注数据集进行网络安全命名实体及实体间关系的深度学习联合抽取模型的训练，对新的非结构化网络安全威胁情报可以利用预训练的深度学习联合抽取模型进行抽取，实现非结构化网络安全威胁情报向机读情报的自动转化。

本发明的技术方案包括：

一种基于迁移学习的网络安全命名实体和关系联合抽取方法，其步骤包括：

1)对网络安全威胁情报进行网络安全命名实体及关系联合标注，构建网络安全威胁情报语料库；

2)基于自然语言语料库预训练深度神经网络，得到提取词语特征表示向量的预训练深度神经网络；

3)将预训练深度神经网络与一分类器组合，构建初始联合抽取模型；

4)基于网络安全威胁情报语料库，使用迁移学习方法对初始联合抽取模型进行训练，获取训练好的联合抽取模型；

5)将目标数据输入训练好联合抽取模型，得到网络安全命名实体和关系联合抽取结果。

进一步地，通过以下步骤构建网络安全威胁情报语料库：

1)从网络安全威胁情报博客或论坛中采集网络安全威胁情报，其中网络安全威胁情报包括：结构化网络安全威胁情报和非结构化网络安全威胁情报；

2)对结构化网络安全威胁情报，利用情报自身的结构规则标注网络安全命名实体及关系，得到结构化网络安全威胁情报标注结果；

3)利用标注工具，对部分非结构化网络安全威胁情报手工标注网络安全命名实体及关系，并基于总结的标注规则，自动标注剩余的非结构化网络安全威胁情报；

4)结合手工标注结果与规则标注结果，得到非结构化网络安全威胁情报标注结果

5)根据结构化网络安全威胁情报标注结果与非结构化网络安全威胁情报标注结果，构建网络安全威胁情报语料库。

进一步地，标注规则包括：正则表达式或标注词典。

进一步地，通过以下步骤得到预训练深度神经网络：

1)利用自然语言组织规律，对自然语言语料库中的自然语言语料进行分词，得到初始词典；

2)对自然语言中部分的分词进行掩盖；

3)将掩盖后的自然语言语料输入深度神经网络，通过预测掩盖分词，以得到预训练深度神经网络。

进一步地，所述自然语言组织规律包括：词语的词性、词语间的依赖关系、词语的位置和/或词语间的标点符号。

进一步地，使用迁移学习方法对初始联合抽取模型进行训练之前，利用词分片技术、初始词典及自然语言组织规律，对网络安全威胁情报语料库中网络安全威胁情报进行分词。

进一步地，分类器的构建方法包括：使用条件随机场算法。

进一步地，利用网络安全命名实体和关系联合抽取结果，构建网络安全威胁知识图谱，并基于网络安全威胁知识图谱，进行网络安全威胁的应急响应及防御。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行以上所述方法。

一种电子装置，包括存储器和处理器，其中存储器存储执行以上所述方法的程序。

与现有技术相比，本发明的优势包括：

1)提出一种网络安全命名实体和关系的联合标注方法，该方法能够同时标注网络安全命名实体和关系，有利于网络安全命名实体和关系的联合抽取，有效规避了先实体后关系的串行抽取模式存在的误差传递问题；

2)引入迁移学习策略，可将自然语言领域内的抽取知识或经验迁移至网络安全领域适配，降低了网络安全领域命名实体及关系抽取对专家经验的依赖，增强了模型的移植性，且减少了网络安全领域内标注数据集少对模型训练带来的困扰。

附图说明

图1为本发明一种基于迁移学习的网络安全命名实体和关系联合抽取方法示意图。

图2为网络安全威胁情报的网络安全命名实体及关系的联合标注示例。

具体实施方式

首先使用网络安全命名实体及关系联合标注方案对网络安全威胁情报中的网络安全命名实体及关系进行标注，标注过程可采用人工标注和规则标注的方式完成；然后利用自然语言语料预训练深度神经网络结构以抽取词汇特征表示向量；最后利用网络安全命名实体及关系标注数据集优化深度神经网络结构，同时训练条件随机场分类标记算法，形成深度神经网络和条件随机场联合模型，以抽取网络安全命名实体及关系，进而利用网络安全命名实体及关系构建网络安全威胁知识图谱；

参考图1，下面给出详细过程。

一、使用网络安全命名实体及关系联合标注方案标注网络安全威胁情报，详细过程为：

首先从典型的网络安全威胁情报博客或论坛中采集网络安全威胁情报；然后对采集的非结构化网络安全威胁情报利用标注工具手工标注网络安全命名实体及关系，并总结标注规则，对采集的结构化网络安全威胁情报利用情报自身的结构规则标注网络安全命名实体及关系；最后，基于标注规则自动标注非结构化网络安全威胁情报，并由专家对标注数据进行审核，形成网络安全威胁情报标注数据集。

第一步：从典型网络安全威胁情报源采集网络安全威胁情报，筛选对开源网络安全威胁情报平台贡献率较高的网络安全威胁情报博客或论坛，并从这些典型网络安全威胁情报源中采集网络安全威胁情报。

第二步：对非结构化网络安全威胁情报手工标注网络安全命名实体及关系(如图2所示，非结构化威胁情报“An XSS Vulnerability exists in System Center OperationsManager”，标注为“O B-VulApp-1 O O O B-VulApp-2 I-VulApp-2 I-VulApp-2 I-VulApp-2”,其中B、I表示词汇在某网络安全命名实体中的位置(Begin、Inside)，VulApp表示应用程序存在漏洞的关系，1、2表示VulApp关系中第1个网络安全命名实体、第2个网络安全命名实体)，利用命名实体及关系标注软件手工标注网络安全命名实体及关系，并生成标注规则；对结构化网络安全威胁情报利用情报自身的结构规则标注网络安全命名实体及关系。

其中，人工标注可利用开源或商用的实体及关系标注软件进行标注，针对不同的非结构化网络安全威胁情报的来源、不同类型的网络安全命名实体和实体间的关系结合专家分析经验，设计网络安全命名实体标注规则和网络安全命名实体间关系标注规则。

第三步：基于规则标注网络安全命名实体及关系，提炼手工标注网络安全命名实体及关系过程中的规则，形成正则表达式、标注词典等多种形式的标注规则，并利用标注规则批量标注非结构化网络安全威胁情报。

二、利用自然语言语料库预训练深度神经网络结构，详细过程如下：

第一步：对自然语言语料进行分词，利用自然语言语料的组织规律(如词语间的空格、逗号、句号等标点符号)对自然语言语料库进行分词，并形成初始词典nlpDict。

第二步：对自然语言中部分分词进行掩盖，从自然语言语料库中随机选取一定比例的语料，并在语料中随机选取一定比例的分词进行掩盖。

第三步：预训练深度神经网络，基于掩盖后的自然语言语料训练深度神经网络结构以达到预测掩盖分词的目的，后续将利用训练完成的深度神经网络提取词汇的特征表示向量。

三、基于网络安全威胁情报标注数据集利用迁移学习方法优化网络安全命名实体及关系联合抽取模型(该模型由预训练的深度神经网络结构BERT及条件随机场分类器CRF组合而成)，以达到网络安全命名实体及关系标注的目的，详细步骤如下：

第一步：利用词分片技术、自然语言语料库提取的初始词典nlpDict及自然语言组织规律对网络安全威胁情报进行分词，具体来说，词分片技术是将网络安全威胁情报专有词汇拆分为自然语言领域内已有词汇的过程，以解决网络安全威胁情报专有词汇不在自然语言领域内的问题，即假设w为网络安全威胁情报专有词汇由字符c₁c₂…c_m组成，w＝c₁c₂…c_m，

w₁,w₂,…,w_k∈nlpDict，w₁＝c₁c₂…c_i，w₂＝c_i+1c_i+2…c_i+j，…，w_k＝c_m-lc_m-l+1…c_m，那么w＝w₁,w₂,…,w_k。

第二步：构建深度神经网络和条件随机场联合抽取模型，在预训练的深度神经网络结构的基础上添加条件随机场算法，将深度神经网络提取的词汇特征表示向量(H₁、H₂、…、H_n)做为输入传入条件随机场进行标记标签分类。

第三步：基于分词后的网络安全威胁情报语料库利用迁移学习的参数微调方法训练已构建的网络安全命名实体及关系联合抽取模型，并利用标签标记结果实现网络安全命名实体及关系的抽取。

其中，对每条分词后的网络安全威胁情报，首先生成该情报的初始嵌入向量E＝(E₁,E₂,…,E_n)，该初始嵌入向量由词汇w在nlpDict中的词序、情报中的第几个句子中(一般为0)、词汇在本条情报中的位置等信息组成；然后将初始嵌入向量输入网络安全命名实体及关系的联合抽取模型中进行计算。

四、针对新的非结构化网络安全威胁情报，利用网络安全命名实体及关系联合抽取模型抽取网络安全命名实体及关系，进而可利用抽取的网络安全命名实体和关系构建网络安全威胁知识图谱，并基于网络安全威胁知识图谱提升网络安全威胁的应急响应及防御能力。

尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于迁移学习的网络安全命名实体和关系联合抽取方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，通过以下步骤构建网络安全威胁情报语料库：

3.如权利要求2所述的方法，其特征在于，标注规则包括：正则表达式或标注词典。

4.如权利要求1所述的方法，其特征在于，通过以下步骤得到预训练深度神经网络：

2)对自然语言中部分的分词进行掩盖；

5.如权利要求4所述的方法，其特征在于，所述自然语言组织规律包括：词语的词性、词语间的依赖关系、词语的位置和/或词语间的标点符号。

6.如权利要求4所述的方法，其特征在于，使用迁移学习方法对初始联合抽取模型进行训练之前，利用词分片技术、初始词典及自然语言组织规律，对网络安全威胁情报语料库中网络安全威胁情报进行分词。

7.如权利要求1所述的方法，其特征在于，分类器的构建方法包括：使用条件随机场算法。

8.如权利要求1所述的方法，其特征在于，利用网络安全命名实体和关系联合抽取结果，构建网络安全威胁知识图谱，并基于网络安全威胁知识图谱，进行网络安全威胁的应急响应及防御。

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。