CN113971398A

CN113971398A - 一种面向网络安全领域实体快速识别的词典构造方法

Info

Publication number: CN113971398A
Application number: CN202111222742.5A
Authority: CN
Inventors: 秦涛; 刘博豪; 李致远; 马凯
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-01-25

Abstract

一种面向网络安全领域实体快速识别的词典构造方法，首先，构建网络安全领域本体，采用爬虫系统获取网络安全领域原始语料，对部分文本序列进行BIO人工标注后形成现有的网络安全领域实体标注语料，从中提取实体后构建基础词典。随后，整合现有与网络安全领域实体类型相关的词库，扩展基础词典。然后，一方面采用自主学习的方法从未标注数据集中选择大量数据，使用深度学习模型大规模自动标注，另一方面采用主动学习的方法从未标注数据集选择少量数据，使用词典指导精确自动标注后再进行人工检查。最后再次使用自动识别工具从新标注数据中提取新词，进行标注‑提取‑标注的循环，同时实现大规模全自动和精确快速的数据标注和词典扩充工作。

Description

一种面向网络安全领域实体快速识别的词典构造方法

技术领域

本发明属于网络安全知识图谱构建技术领域，特别涉及一种面向网络安全领域实体快速识别的词典构造方法。

背景技术

当今社会正在迈入万物互联的新时代，在数据信息成为重要战略资源和新生产要素的同时，网络空间中的威胁和风险也日益增多。为有效掌握网络安全的整体态势，对当前网络空间安全状况进行总体研判和趋势分析，政府机关、相关企业等机构发布了大量有关漏洞、攻击、病毒等层面的网络安全文本序列。然而这些知识是典型的碎片化知识，需要进行分析处理，形成结构化数据才具有更强的决策支持力。鉴于上述背景，面向远程网络安全专家数据的网络安全知识图谱构建研究备受青睐，网络安全知识图谱能够将网络安全领域知识以图的形式展现出来，更体系化、关系化，从而帮助研究人员快速对网络安全态势进行感知和分析。而构建网络安全领域知识图谱的核心环节是信息抽取，即针对海量非结构化的网络安全文本序列进行命名实体识别和实体关系抽取。

命名实体识别是信息抽取和知识图谱构建的基础性工作，核心目标是提取出自然语句中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类。历经二十多年的研究发展，命名实体识别领域已经涌现出多种技术，包括基于规则和词典的方法、基于机器学习的方法和基于深度学习的方法。基于规则和词典的方法能够在特定任务上取得较高的准确率，但需要耗费大量的人力进行规则和词典的构造，且无法进行很好的迁移；基于机器学习的方法能够克服这些弊端，但仍旧需要大量、高质量人工标记的训练集，且需要人为构造特征；而基于深度学习的方法，包括卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)等等，通过端到端的学习能够自动提取特征，但是仍然依赖大量、高质量的人工标记语料。可见，为有效训练模型，大规模的文本标注工作必不可少。然而在网络安全领域，中文网络安全知识图谱的构建刚刚起步，该领域的标注语料极其匮乏。

发明内容

为了克服上述现有技术的缺点，应用深度学习模型进行有效的监督学习，本发明的目的在于提供一种面向网络安全领域实体快速识别的词典构造方法，能够快速准确地对网络安全领域文本进行机器标注。

为了实现上述目的，本发明采用的技术方案是：

一种面向网络安全领域实体快速识别的词典构造方法，包括：

步骤1，构建基础词典：构建网络安全领域本体，基于本体确定进行实体识别和词典构造的实体类型，整合现有的网络安全领域语料，构建未标注数据集U和已标注数据集L，使用自动识别工具从已标注数据集L中识别出实体，构建基础词典D；

步骤2、扩展基础词典：利用现有与网络安全领域实体类型相关的词库对基础词典D进行扩展；

步骤3、通过主动学习抽样从未标注数据集U中选择S条信息更丰富的文本序列进行词典指导标注，随后人工检查，得到新标注数据集S；

步骤4、通过自主学习抽样从未标注数据集U中选择置信度最大且有效的T条文本序列进行基于深度学习的模型标注，得到新标注数据集T；

步骤5、更新标注数据集L和未标注数据集U，使用自动识别工具从新标注数据集S,T中提取新的实体，进行基础词典D的更新；

步骤6、迭代执行步骤3～步骤5，实现快速、精确的实体识别和词典扩充工作。

优选地，所述步骤1中，通过结合目标数据源，将核心概念集合划分为基础维、威胁维、脆弱维三个维度，并定义核心实体概念和实体概念之间的关系，构建网络安全领域本体，其中所述基础维是在网络安全领域所涉及到的包括软件、系统、硬件在内的基础范畴；脆弱维包括资产在软、硬件存在的安全隐患或者威胁及风险；威胁维包括网络安全事件中的各种攻击事件，攻击链路以及攻击方式和所造成的各种攻击结果。

优选地，所述核心实体概念为16类，分别为软件(SW)、硬件(HW)、系统(OS)、版本(VER)、位置名称(LOC)、组织名称(ORG)、攻击者(AR)、主机(Host)、地址(Address)、漏洞编号(VI)、漏洞类型(VN)、攻击方式(AT)、恶意软件(MW)、结果(CSQ)、恶意软件类型(MWT)和网络流(FW)；所述实体概念之间的关系为8种，分别为拥有、包含、属于、运行、存在、导致、利用和位于；基于该本体，确定14种实体类型用于实体识别和词典构造，包括：{软件名称(SW)、硬件(HW)、系统(OS)、版本(VER)、位置名称(LOC)、组织名称(ORG)、漏洞编号(VI)、漏洞类型(VN)、攻击者(AR)、攻击方式(AT)、恶意软件(MW)、结果(CSQ)、恶意软件类型(MWT)、网络流(FW)}。

优选地，所述步骤1中，采用爬虫系统从各大网络安全信息网站和响应中心获取现有网络安全领域语料，爬虫系统获取到的数据经去重、整理后即形成未标注数据集U，随后选取部分文本序列采用BIO标注法人工标注，即将每个数据元素标注为为“B-X”、“I-X”或“O”的序列形式，其中B、I代表实体类型中的元素位置，X代表实体类型，O代表其他非实体元素，人工标注后形成已标注数据集L。

优选地，所述自动识别工具中，对已标注数据集L中的每条文本序列X，检测标注不为“O”的字符，识别出实体的范围和实体类型，选择在所确定进行实体识别和词典构造的实体类型之内的实体，以实体名称为key，标注实体类型为value，将其以{key，value}的格式存入字典中，完成基础词典D的构建。

优选地，所述步骤2中，将现有与网络安全领域实体类型相关的词库收集标注后统一存入基础词典D中，完成其扩展，所述词库包括：互联网公司名称词库，常用软件、硬件和操作系统词库以及漏洞类型词库。

优选地，所述步骤3中，主动学习抽样如下：

首先使用已标注数据集L训练命名实体识别模型BERT-BiLSTM-CRF，用M表示，然后通过模型M对未标注数据集U进行预测；随后基于主动抽样策略

从未标注数据集U中筛选出S条信息更丰富的未标注文本序列，使用词典对其进行机器标注，对每条未标注的文本序列，遍历扩展后的基础词典D，若包含某个实体，则将对应的实体标注为该类型，对于词典未包含或标注错误的实体，人工检查后更正标注，将标注后的数据加入已标注数据集L，得到新标注数据集S。

优选地，所述主动抽样策略

中，对于任意输入序列X，Y表示所有可能的标签序列，P(y|X)表示模型预测当前输入序列对应的标签序列是y的概率，计算公式如下：

式中：Score(y,X)表示标签序列y的分数，包括EmissionScore(发射分数)和TransitionScore(转移分数)两部分；

按序列长度进行归一化处理，得到对于任意输入序列X，其对应标签序列的归一化最小置信度为：

式中：y^*表示当前输入序列对应的概率最大的标签序列；P(y^*|X)表示为模型预测当前输入序列对应的标签序列是y^*的概率，N表示输入序列X的长度，

表示置信度，其值越小，即说明模型对当前输入序列预测的不确定度越大，从而从未标注数据集U中筛选出信息量更大的S条文本序列。

优选地，所述步骤4中，自主学习抽样如下：

首先使用已标注数据集L训练命名实体识别模型BERT-BiLSTM-CRF，用M表示，然后通过模型M对未标注数据集U进行预测；随后采用自主抽样策略

从未标注数据集U中选择置信度最大且有效T条文本序列，文本序列选择后，使用模型M识别实体后进行机器标注，得到新标注数据集T。

优选地，所述自主抽样策略

计算公式如下：

式中：(y^*|X)表示模型M对输入序列X预测结果置信度最大的序列预测，N表示输入序列X的长度，e_num(y^*)表示预测标签序列中实体token的数量，其数量越高代表序列X包含的实体信息更多。

现有网络安全领域实体标注都是采用人工标注完成，同现有技术相比，本发明的收益效果有：

(1)传统的人工标注方法耗时耗力，本发明提出的词典指导标注和深度学习模型标注自动化程度高，大大减少人力成本和时间成本。

(2)本发明采用主动学习和自主学习相结合的方法筛选出高质量、信息量大的未标注样本，提高标注效率；采用词典指导标注和深度学习模型标注结合的标注方法，从而提高标注准确率。

(3)网络安全实体词典可以随着数据的标注自动扩充，随着词典的扩充，其指导标注的效率也越来越高。

附图说明

图1是本发明网络安全实体词典构建流程示意图；

图2是构建的网络安全领域本体；

图3是爬虫系统设计图；

图4是从CNNVD(国家漏洞信息库)获取漏洞描述信息的运行流程。

具体实施方式

以下结合附图及实施例对本发明的实施方式进行详细说明。需要说明的是，此处描述的实施例只用以解释本发明，并不用于限定本发明。此外，在不冲突的情况下，本发明中的实施例涉及的技术特征可以相互结合。

本发明的具体实施过程包括基础词典构建过程、基础词典扩展过程、主动学习抽样和词典指导标注过程、自主学习抽样和模型标注过程、词典更新过程和迭代过程。图1示出了本发明面向网络安全领域实体快速识别的词典构造流程，步骤如下：

1.基础词典构建过程

构建网络安全领域本体，基于本体确定进行实体识别和词典构造的实体类型，整合现有的网络安全领域语料，构建未标注数据集U和已标注数据集L，使用自动识别工具从已标注数据集L中识别出实体，构建基础词典D。具体过程如下：

(1)考虑对多源异构的网络安全数据进行有效表示和统一管理，结合目标数据源，将核心概念集合划分为基础维、威胁维、脆弱维三个维度来构建网络安全领域本体。基础维即在网络安全领域所涉及到的软件、系统、硬件等基础范畴；脆弱维度主要指的是一些资产包括软、硬件存在的安全隐患或者威胁及风险；威胁维度指的是网络安全事件中的各种攻击事件，攻击链路以及攻击方式和所造成的各种攻击结果。通过定义16类核心实体概念{软件(SW)、硬件(HW)、系统(OS)、版本(VER)、位置名称(LOC)、组织名称(ORG)、攻击者(AR)、主机(Host)、地址(Address)、漏洞编号(VI)、漏洞类型(VN)、攻击方式(AT)、恶意软件(MW)、结果(CSQ)、恶意软件类型(MWT)和网络流(FW)}和8种实体概念{拥有、包含、属于、运行、存在、导致、利用和位于}之间的关系，最终构建的网络安全领域本体如图2所示。基于该本体，确定14种实体类型用于实体识别和词典构造，包括有{软件名称(SW)、硬件(HW)、系统(OS)、版本(VER)、位置名称(LOC)、组织名称(ORG)、漏洞编号(VI)、漏洞类型(VN)、攻击者(AR)、攻击方式(AT)、恶意软件(MW)、结果(CSQ)、恶意软件类型(MWT)、网络流(FW)}。

(2)采用爬虫系统分别从国家安全漏洞平台(CNVD)、国家安全漏洞库(CNNVD)、安全客、国家计算机病毒中心(CVERC)、绿盟威胁情报分析平台、FreeBuf安全论坛、腾讯安全中心、深信服安全中心、360安全响应中心、大连理工大学网络与信息化中心共10个网络安全信息网站和响应中心获取半结构化和非结构化的网络安全文本信息。爬虫系统主要包括URL管理、内容下载、网页解析、数据存储、线程管理和异常处理几部分，爬虫系统设计如图3所示。基本爬取过程为：

a)选取一个或者一部分种子URL作为初始URL链接队列并将其放入待爬取URL队列当中；

b)按序取出URL通过DNS进行解析得到IP地址，下载HTML源码和页面信息，同时在这个过程中若获取到新的URL就将其放入待爬URL队列当中，以此实现循环爬取；

c)抓取数据量较大的网站时，还应考虑使用线程管理，提高爬取速率；

d)对于获取的页面内容需要通过自然语言处理等技术做页面解析处理，去除噪声数据，从而得到特定内容，并按照相应规则存入数据库中。

以从CNNVD(国家漏洞信息库)获取漏洞描述信息的爬取过程为例，如图4所示，调度器统一管理、调度、监视；引擎从调度器中中获取待爬URL网页链接，并向下载器发送下载请求；下载器抓取网页内容下载到本地；解析器解析抓取内容，提取需要的结构化和非结构化信息交给数据管道负责存储处理；而引擎则负责控制各组建的数据流和响应。

爬虫系统获取到的数据经去重、整理后，最终形成包括8个数据源网站17万条左右的漏洞描述信息以及1000余篇网络安全专家报告的自建中文网络安全文本序列集U。随后选取部分文本序列采用BIO标注法人工标注，即将每个数据元素标注为为“B-X”、“I-X”或“O”的序列形式，其中B、I代表实体类型中的元素位置，X代表实体类型，O代表其他非实体元素。人工标注后形成现有网络安全领域实体的已标注数据集L。

(3)采用自动识别工具，对已标注数据集L中的每条文本序列X，检测标注不为“O”的字符，识别出实体的范围和实体类型，选择在上述14种之内的实体类型，以实体名称为key，标注实体类型为value，将其以{key，value}的格式存入字典中，完成基础词典D的构建。

2.基础词典扩展过程

利用现有与网络安全领域实体类型相关的词库对基础词典D进行扩展。具体地，整合现有与网络安全领域实体类型相关的词库，包括有互联网公司名称词库，常用软件、硬件和操作系统词库，漏洞类型词库，将其收集标注后统一存入基础词典D中。

3.主动学习抽样和词典指导标注过程

通过主动学习抽样从未标注数据集U中选择S条信息更丰富的文本序列进行词典指导标注，随后人工检查，得到新标注数据集S。具体过程如下：

(1)首先使用现有网络安全领域实体的已标注数据集L训练命名实体识别模型M，然后通过模型M对未标注数据集U进行预测，同时基于主动抽样策略Q从U中筛选出S条未标注样本，进行人工标注后加入L，迭代训练模型直到满足停止条件。

选择经典的NER模型BERT-BiLSTM-CRF作为本发明的网络安全命名实体识别模型，用M表示，使用现有网络安全领域实体标注数据集L训练命名实体识别模型M，随后通过模型M对未标注数据集U进行预测。对于任意输入序列X，Y表示所有可能的标签序列，P(y|X)模型预测当前输入序列对应的标签序列是y的概率，计算公式如下：

y^*表示当前输入序列对应的概率最大的标签序列；P(y^*|X)表示为模型预测当前输入序列对应的标签序列是y^*的概率，采用公式1计算。随后按序列长度进行归一化处理，得到对于任意输入序列X，其对应标签序列的归一化最小置信度为：

式中：N表示输入序列X的长度，

表示置信度，其值越小，即说明模型对当前输入序列预测的不确定度越大，从而可以从未标注数据集U中筛选出信息量更大的S条文本序列。

(2)得到经过主动抽样策略

筛选出的S条未标注的文本序列后，对每条文本进行词典指导标注。通过遍历网络安全实体词典，若包含某个实体，则将对应的实体标注为该类型。对于词典未包含或标注错误的实体，人工检查后更正标注。

4.自主学习抽样和模型标注过程

通过自主学习抽样从未标注数据集U中选择置信度最大且有效的T条文本序列进行基于深度学习的模型标注，得到新标注数据集T。具体过程如下：

(1)定义自主抽样策略为

从未标注数据集U中选择置信度最大且有效(Maximum Confidence and Effectiveness，MCE)的T条文本序列，计算公式如下：

(2)得到经过主动抽样策略

筛选出的T条未标注的文本序列后，使用模型M识别后进行机器标注。

5.词典更新过程

更新标注数据集L和未标注数据集U：

L＝L+S+T；U＝U-S-T 公式4

随后使用自动识别工具从新标注数据集S、T中提取新的实体，加入到词典中，完成词典的更新。

6.迭代过程

迭代执行步骤3，4，5，实现快速、精确的实体识别和词典扩充工作。

Claims

1.一种面向网络安全领域实体快速识别的词典构造方法，其特征在于，包括：

步骤5、更新标注数据集L和未标注数据集U，使用自动识别工具从新标注数据集S、T中提取新的实体，进行基础词典D的更新；

2.根据权利要求1所述面向网络安全领域实体快速识别的词典构造方法，其特征在于，所述步骤1中，通过结合目标数据源，将核心概念集合划分为基础维、威胁维、脆弱维三个维度，并定义核心实体概念和实体概念之间的关系，构建网络安全领域本体，其中所述基础维是在网络安全领域所涉及到的包括软件、系统、硬件在内的基础范畴；脆弱维包括资产在软、硬件存在的安全隐患或者威胁及风险；威胁维包括网络安全事件中的各种攻击事件，攻击链路以及攻击方式和所造成的各种攻击结果。

3.根据权利要求2所述面向网络安全领域实体快速识别的词典构造方法，其特征在于，所述核心实体概念为16类，分别为软件(SW)、硬件(HW)、系统(OS)、版本(VER)、位置名称(LOC)、组织名称(ORG)、攻击者(AR)、主机(Host)、地址(Address)、漏洞编号(VI)、漏洞类型(VN)、攻击方式(AT)、恶意软件(MW)、结果(CSQ)、恶意软件类型(MWT)和网络流(FW)；所述实体概念之间的关系为8种，分别为拥有、包含、属于、运行、存在、导致、利用和位于；基于该本体，确定14种实体类型用于实体识别和词典构造，包括：{软件名称(SW)、硬件(HW)、系统(OS)、版本(VER)、位置名称(LOC)、组织名称(ORG)、漏洞编号(VI)、漏洞类型(VN)、攻击者(AR)、攻击方式(AT)、恶意软件(MW)、结果(CSQ)、恶意软件类型(MWT)、网络流(FW)}。

4.根据权利要求1所述面向网络安全领域实体快速识别的词典构造方法，其特征在于，所述步骤1中，采用爬虫系统从各大网络安全信息网站和响应中心获取现有网络安全领域语料，爬虫系统获取到的数据经去重、整理后即形成未标注数据集U，随后选取部分文本序列采用BIO标注法人工标注，即将每个数据元素标注为为“B-X”、“I-X”或“O”的序列形式，其中B、I代表实体类型中的元素位置，X代表实体类型，O代表其他非实体元素，人工标注后形成已标注数据集L。

5.根据权利要求1所述面向网络安全领域实体快速识别的词典构造方法，其特征在于，所述自动识别工具中，对已标注数据集L中的每条文本序列X，检测标注不为“O”的字符，识别出实体的范围和实体类型，选择在所确定进行实体识别和词典构造的实体类型之内的实体，以实体名称为key，标注实体类型为value，将其以{key，value}的格式存入字典中，完成基础词典D的构建。

6.根据权利要求1所述面向网络安全领域实体快速识别的词典构造方法，其特征在于，所述步骤2中，将现有与网络安全领域实体类型相关的词库收集标注后统一存入基础词典D中，完成其扩展，所述词库包括：互联网公司名称词库，常用软件、硬件和操作系统词库以及漏洞类型词库。

7.根据权利要求1所述面向网络安全领域实体快速识别的词典构造方法，其特征在于，所述步骤3中，主动学习抽样如下：

8.根据权利要求7所述面向网络安全领域实体快速识别的词典构造方法，其特征在于，所述主动抽样策略

9.根据权利要求1所述面向网络安全领域实体快速识别的词典构造方法，其特征在于，所述步骤4中，自主学习抽样如下：

10.根据权利要求9所述面向网络安全领域实体快速识别的词典构造方法，其特征在于，所述自主抽样策略

计算公式如下：