CN114138966B

CN114138966B - 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法

Info

Publication number: CN114138966B
Application number: CN202111442536.5A
Authority: CN
Inventors: 王俊峰; 葛文翰; 唐宾徽; 于忠坤; 陈柏翰; 余坚
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-05-23
Anticipated expiration: 2041-11-30
Also published as: CN114138966A

Abstract

本发明公开了一种基于弱监督学习的网络威胁情报文本关键信息抽取方法，通过将信息抽取转化为特征数据空间映射的任务，结合知识表示学习方法，采用基于局部序列的注意力机制，利用文本主题标签，实现弱监督学习文本的关键信息抽取，并使用人工评估与置信度评估方式验证抽取信息质量，确保信息真实可靠可信的完整方法；通过训练一个可以对文本进行更准确、有对比、有依据的关键信息抽取模型，并希望通过该抽取模型形成的关键信息能够有理有据地反映序列标签的实际语义价值；通过弱监督学习策略和本方法定义的两种评估方法，经过端到端网络的训练，降低信息抽取的复杂度和时间成本，提高以本方法提取的关键信息在标签分类上的准确率和召回率。

Description

一种基于弱监督学习的网络威胁情报文本关键信息抽取方法

技术领域

本发明涉及自然语言处理和网络空间安全技术领域，具体为一种基于弱监督学习的网络威胁情报文本关键信息抽取方法。

背景技术

网络威胁情报(Cyber Threat Intelligence,CTI)作为共享事件信息攻击手法的主要信息载体，被多数安全分析资源共享平台推荐，为绝大多数的相似攻击事件的场景还原和攻击组织的追踪提供必要的技术背景、攻击过程参考和攻击手段解析，因此成为目前主流的网络威胁事件分析的数据来源。威胁情报的分析工程，主要是对通过从各种渠道采集到的威胁情报的文本等多媒体数据逻辑理解，串联事件发生情节过程，补充必要背景和攻击细节，从而形成对于特定场景下的事件描述语言，或定义出能够追踪定位网络犯罪团体的概念特征等有益实体对象或表征。当前针对网络威胁情报的文本分析普遍建立在自然语言处理(Natural Language Processing,NLP)上，主要分为信息抽取(InformationExtraction,IE)和分类。信息抽取根据其抽取对象的不同又可以分为抽取概念和核心语义成分的实体抽取，与抽取实体关系的关系抽取。

传统的实体抽取方法主要依赖命名实体抽取方法(Named Entity Recognition,NER)。该方法需要人工对文本序列的各个单词、短语、字段等逐一标注形成对字段成分定位的人工解读，并带入人工智能算法完成计算机的字词的理解。这种方法不仅需要人工对庞大的数据进行细致的标注，也需要标注人员对同种概念具有相同认知。极大地增加了标注压力，并且无法对概念边界、数据质量等有效评估，因此不容易完成人工智能模型的训练，且不易对模糊的、较抽象的、无定义的实体完成识别。

而分类方法多建立在对文本信息的高级特征的总结和抽象上，能够获取对比较抽象概念或特征性的定性。但正是由于这种高维抽象性质，使得分类方法难以像实体抽取对文本内容定量分析以获取对较高抽象实体的定量定性的描述。虽然有部分学者针对实体识别开展了基于词汇相关性方法聚类和相似词汇推理的探究，如Linear DiscriminantAnalysis(LDA线性判别分析)，但这类方法也无法有效评估相似词汇数据边界，或形成较抽象的概念性实体聚落。针对网络威胁情报的文本分析普遍技术问题，需要由新的技术手段跨越实体从表象到抽象的性质，完成对可能或潜在的实体概念或性质等关键信息的定量定性抽取任务。

发明内容

针对上述问题，本发明提出一种基于弱监督学习的网络威胁情报文本关键信息抽取方法，结合知识表示学习，采用基于局部序列的注意力机制，利用文本主题标签，实现弱监督学习文本的关键信息抽取，并使用人工评估与置信度评估方式验证抽取信息质量，确保信息真实可靠可信的完整方法。技术方案如下：

一种基于弱监督学习的网络威胁情报文本关键信息抽取方法

S1：预处理通过网络爬虫得到的和用户上传的网络威胁情报文本信息，进行数据清洗并分句后形成分析语料库；通过文本原有的存储环境、收集方式或研究领域来确定文本主题，通过筛选形成语句主题标签；

S2：使用词嵌入学习方法，将分析语料转化为词嵌入式表达，形成定长输入特征；并通过定长输入的词嵌入表达，通过CNN(Convolutional Neural Network)兼容多种长度的语义依赖，形成多窗口的k-gram短语向量；

S3：使用SeqMask弱监督学习模型，结合筛选到的语句主题标签和k-gram短语向量形成在各个短语向量在语句标签要求下的重要性分布权重，并通过控制重要性筛选阈值确定关键信息；

S4：使用专家评估和置信度评估两种评估方式，完成对S3中抽取的关键信息和筛选阈值在主观合理性和客观有效性的评估，形成最终文本关键信息。

进一步的，所述步骤S2的具体步骤如下：

假设任意文本由w＝<w₁,w₂,…,w_n>连续n个单词组成；假设e＝<e₁,e₂,…,e_n>为词嵌入模型对w生成的词向量，每个词向量e_i∈e由m个词向量维度组成：

为获取k-gram短语向量：E_k＝<E_1,k,E_2,k,…,E_n,k>执行式(1)操作；该式表达了使用1维CNN对连续k个词向量e_j∈e,

加权合并为k-gram短语w_(k)的向量表达；

其中，[]为向下取整方法，即

是获取不超过/>

的最大整数；/>

是共享权重，

是共享偏移量；‖是合并函数负责将连续n个短语向量/>

合并为/>

获得的短语向量E_i,k∈E_k同样满足拥有m个维度的向量特性，即：/>

更进一步的，所述步骤S3中的重要性分布权重计算按照如下方式进行：

针对S2所得的k-gram短语向量E_k，采用式(2)获取其重要性权重

式中的重要性计算分为三种方式，从上至下分别为：以向量权重为衡量依据的SV_Mask方式、以向量与向量分布中心距离为衡量依据的MP_Mask和以向量与向量分布区域边界距离为度量的AR_Mask方式；

其中，W_j和b_j为评估器在向量维度

的权重：/>

为MP_Mask方法的向量维度中心点；/>

和/>

分别为AR_Mask的向量维度分布空间的上界最大值和下界最小值；/>

为指数常量。

更进一步的，所述步骤S3中的SeqMask弱监督学习模型在主题标签分类要求下按照如下方式运作：

针对式(2)重要性权重

采用式(3)中的softmax方法提取放大具有特定价值的向量影响并实现归一化，得到关键信息评分/>

然后通过式(4)将关键信息评分

按位回乘到原有的短语向量E_i,k中以获取加权向量/>

再通过式(5)在全局范围采用最大池化层求得最有价值的k-gram向量

再通过式(6)合并所有k-gram中的最有价值的向量

形成对所有单词w的统一词向量量/>

通过式(7)构建统一词向量V_w到标签集合l的概率集合P(l)的映射获取V_w与l的关系，并通过学习l的分布推理V_w的可信值域区间，从而完成对关键信息评分

的前馈更新；

P(l)＝σ(W_lV_w+b_l) (7)

其中，

为权重，/>

是偏移量，σ是sigmoid激活函数。

更进一步的，所述步骤S3中的通过控制重要性筛选阈值确定关键信息包含如下步骤：

通过对式(3)中的关键信息评分

采用式(8)的语句内归一化操作形成相对评分

其中，

和/>

分别是短语向量E_k中的最大评分和最小评分；

通过确定筛选阈值

使用式(9)确定满足条件的k-gram短语w_(k)所处的位置，形成k-gram关键词列表/>

通过式(10)完成所有k-gram关键词列表

的合并以形成最后的关键词列表w^(θ)：

更进一步的，所述步骤S4中专家评估检验方式包含如下步骤：

通过双盲验证，将多位专家和S3所述过程独立地对相同文本抽取的关键信息组求取相似程度的方式进行关键信息有效度验证；定义

为第γ位专家对测试语句集TS中测试语句ts_i∈TS筛选的关键信息集合；/>

为SeqMask在筛选阈值θ下的关键信息集合；通过式(11)定义的相似性度量方法能够获得测试语句ts_i对筛选阈值θ和第γ位专家的评分Score(ts_i,θ,γ)：

同时通过式(12)求得对测试语句集TS在筛选阈值θ和第γ位专家平均评分：

通过式(13)求得对测试语句集TS在筛选阈值θ下的平均评分：

更进一步的，所述步骤S4中置信度评估检验方式包含如下步骤：

通过改变式(3)中的词汇筛选方式，将原有的正相关性权重改变为负相关性权重，通过反向遮罩探究遮罩后的文本对原文本语义信息的负面影响，从而判断遮罩部分对文本语义表达的价值；其反向重要性权重

由公式(14)和公式(15)体现：

其中，

为式(3)中关键信息评分，/>

为式(8)中相对评分。

本发明的基于弱监督学习的网络威胁情报文本关键信息抽取方法，解决了现有技术对网络威胁情报文本关键信息抽取时存在的部分问题，具有以下优点：

(1)本发明利用以SeqMask为主的关键信息抽取算法，解放了传统全监督方法中人工对文本的字符级别标注压力，提高了文本分类的可解释性与准确率；

(2)本发明能够针对不同抽象程度的实体标签产生不同长度的关键信息，较无监督学习在关键词可解释性和数据边界较模糊的问题上有所改进，同时能够处理人工实体定义不友好的应用场景；

(3)本发明的关键信息抽取的依据不再是人工定义的数据，而是随着模型在训练过程中的知识表示和前馈修正逐步完成，避免了人工定义的潜在错误，同时能够提供合理的定性指标评估筛选方案。

附图说明

图1为本发明方法过程描述图。

图2为本发明步骤S3中三种字词重要性评估方案：(a)SV_Mask的应用场景和理论依据说明图；(b)MP_Mask的应用场景和理论依据说明图；(c)AR_Mask的应用场景和理论依据说明图。

图3为本发明步骤S2-S3的深度神经网络结构图。

图4为本发明在网络威胁情报技战术关键信息抽取上的人工评估平均得分。

具体实施方式

下面结合附图和具体实施实例对本发明作进一步详细的说明。

本发明方法的系统结构如图1所示，方法由S3中基于弱监督学习的文本关键信息筛选深度学习方法SeqMask和S4中关键信息评估方法组成。以下具体实施场景将以网络威胁情报技战术分析应用场景为例。

步骤S1：预处理通过网络爬虫、用户上传的文本信息，数据清洗并分句后形成分析语料库；通过文本原有的存储环境、收集方式、研究领域等确定文本主题，通过筛选等方式形成语句主题标签。

文本预处理建立在对网络威胁情报文本的信息收集、技战术主题标签标注、语句切分和词嵌入表达。对于语句标签，本发明接受从具象具体的实体标签到抽象复杂的主题标签的全部标签种类。较NER中常见的具象化实体有明显的泛化性和应用价值。

步骤S2：使用词嵌入学习方法，将分析语料转化为词嵌入式表达，形成定长输入特征；并通过定长输入的词嵌入表达，采用CNN方法，兼容多种长度的语义依赖，形成多窗口的k-gram短语向量。

对于嵌入式表达过程，本发明使用基于语义局部特性的CNN卷积神经网络作为多视窗的短语嵌入式表达，有效保证了语义的完整性，并明确了语义边界，实现了对文本单词、短语、固定搭配、常用组合的兼容处理。

构建基于式(1)的k-gram短语向量表达，在本例中考虑使用一维卷积核作为实现方式，其他应用场景可根据其他需求合理执行修改方法。

获取k-gram的短语向量包含如下步骤：

假设任意文本由w＝<w₁,w₂,…,w_n>连续n个单词组成。假设e＝<e₁,e₂,…,e_n>为词嵌入模型对w生成的词向量，每个词向量e_i∈e由m个词向量维度组成：

为获取k-gram的短语向量：E_k＝<E_1,k,E_2,k,…,E_n,k>执行式(1)操作。

该式表达了使用1维CNN对连续k个词向量

加权合并为k-gram短语w_(k)的向量表达。其中[]为向下取整方法，即/>

是获取不超过/>

的最大整数。

是共享权重，/>

是共享偏移量。‖是合并函数负责将连续n个短语向量

合并为/>

根据式(1)获得的E_i,k∈E_k同样满足拥有m个维度的向量特性，即：/>

步骤S3：使用本发明提出的SeqMask深度学习算法，结合S1中语句主题标签和S2中k-gram短语向量，形成在各个短语向量在语句标签要求下的相关性和重要性分布权重，并通过控制重要性筛选阈值确定关键信息。

重要性分布权重计算按照如下方式进行：

针对S2所得的k-gram短语向量E_k，采用式(2)获取其重要性权重

式(2)中的重要性计算可以被分为三种方式，从上至下分别为：以向量权重为衡量依据的SimpleVectors Mask(SV_Mask)方式；以向量与向量分布中心距离为衡量依据的Middle PointMask(MP_Mask)；和以向量与向量分布区域边界距离为度量的Area Range Mask(AR_Mask)方式。其中W_j和b_j为评估器在向量维度/>

的权重：/>

为MP_Mask方法的向量维度中心点。/>

和/>

分别为AR_Mask的向量维度分布空间的上界最大值和下界最小值。/>

为指数常量。

SeqMask深度学习模型在主题标签分类要求下按照如下方式运作：

针对式(2)重要性权重

采用式(3)中的softmax方法提取放大具有较大价值的向量影响并实现归一化：/>

/>

式(4)将重要性权重

按位回乘到原有的E_i,k中以获取加权向量/>

通过式(5)在全局范围采用最大池化层求得最有价值的k-gram向量/>

式(6)通过合并所有k-gram中的最有价值的向量/>

形成对所有单词w的统一向量表示：/>

P(l)＝σ(W_lV_w+b_l) (7)

式(7)通过构建统一词向量V_w到标签集合l的概率集合P(l)的映射获取V_w与l的关系，并通过学习l的分布推理V_w的可信值域区间，从而完成对关键信息评分

的前馈更新。其中/>

为权重，/>

是偏移量，σ是sigmoid激活函数。

进一步的，所述步骤S3中的通过控制重要性筛选阈值确定关键信息包含如下步骤：

当确保式(1)至式(7)产生的过程能够正常推理由w→l时，通过对式(3)中的

采用式(8)的语句内归一化操作形成相对评分/>

其中/>

和/>

分别是E_k中的最大评分和最小评分。通过确定筛选阈值/>

并通过式(10)完成所有k-gram关键词列表/>

的合并以形成最后的关键词列表w^(θ)。

对于关键信息抽取过程，本发明提出名为SeqMask弱监督学习算法。该算法不再需要如同一般传统实体识别方法中对文本的字符级标注，而是采用语义分布评估的方式，将S1中语句主题标签的影响，通过神经网络的前馈方式，传递到核心语义分布区域生成中，完成文本关键信息的抽取。此过程为弱监督学习非确切标签学习。

使用本发明提出的SeqMask深度学习算法，结合S1中语句主题标签和S2中k-gram短语向量，形成在各个短语向量在语句标签要求下的相关性和重要性分布权重，并通过控制重要性筛选阈值确定关键信息。

通过分别选择图2中对

重要性评估的三种评分方法，构建基于式(1)至式(7)的完整深度神经网络模型，带入S2中网络威胁情报文本的k-gram短语向量表达和S1中对应的技战术标签，并参与训练可以得到对网络威胁情报的技战术分类网络。图2中，(a)SV_Mask：仅考虑向量权重的关键词评分方法，相当于寻找词向量到标签的超平面映射；(b)MP_Mask：同时考虑词向量的超平面映射和向量分布的核心向量维度，借助与核心向量的距离判断词向量重要性；(c)AR_Mask：在MP-Mask的基础上考虑词向量分布的上下界，因此其形成的关键词向量分布边界更加复杂，区分性更好。当分类网络趋于稳定后，停止训练，此时可以得到对技战术有效的网络威胁情报k-gram短语信息/>

的评分指标/>

根据该指标构建基于式(8)至式(10)的筛选机制完成对全部词汇w及k-gram短语w_(k)的关键信息w^(θ)的筛选。图3反映了完整的式(1)至式(10)的SeqMask网络模型。表1和表2分别反映了SeqMask与其他网络模型在网络威胁情报技战术分类效果。

表1.SeqMask与其他网络模型在网络威胁情报战术分类的效果对比

模型	Precision	Recall	F1	模型大小	运算速度(ms/step)
						SVM	0.9012	0.7518	0.8198	-	-
TextRNN	0.8869	0.8254	0.8550	1250444	14
						TextCNN	0.8905	0.7353	0.8055	237244	7
Self-Attention	0.8627	0.8234	0.8426	2168204	7
						TextRCNN	0.9029	0.8134	0.8558	1480076	15
SV_Mask	0.8909	0.7983	0.8420	528012	7
						MP_Mask	0.8889	0.8241	0.8553	167820	6
AR_Mask	0.8951	0.8289	0.8607	4306316	11

表2.SeqMask与其他网络模型在网络威胁情报技术分类的效果对比

模型	Precision	Recall	F1	模型大小	运算速度(ms/step)
						SVM	0.8825	0.4431	0.5899	-	-
TextRNN	0.8631	0.5655	0.6833	1272632	13
						TextCNN	0.8733	0.5845	0.6999	188728	5
Self-Attention	0.8256	0.6584	0.7325	879928	7
						TextRCNN	0.9086	0.6126	0.7317	1502264	15
SV_Mask	0.8732	0.5805	0.6977	188728	7
						MP_Mask	0.8672	0.6452	0.7399	190008	7
AR_Mask	0.8807	0.5922	0.7082	190520	7

步骤S4：使用本发明提出的两种评估方式：专家评估和置信度评估，完成对S3中抽取的关键信息和筛选模型在主观合理性和客观有效性的评估，形成最终文本关键信息。

专家评估检验方式包含如下步骤：

专家评估检验方式，也称人工验证法。该方法通过双盲验证，将多位专家和S3所述过程独立地对相同文本抽取的关键信息组求取相似程度的方式进行关键信息有效度验证。由于该方法有人工参与，因此主要为主观合理性验证。现定义

为SeqMask在筛选阈值θ下的关键信息集合。通过式(11)定义的相似性度量方法能够获得测试语句ts_i对θ和γ的评分Score(ts_i,θ,γ)。同时通过式(12)和式(13)可以分别求得对测试语句集TS在θ,γ和θ下的平均评分。

置信度评估检验方式包含如下步骤：

置信度验证方法建立在具有完整筛选功能的S3方法的模型的迁移学习基础上。该方法通过改变式(3)中的词汇筛选方式，将原有的正相关性权重改变为负相关性权重，通过反向遮罩探究遮罩后的文本对原文本语义信息的负面影响，从而判断遮罩部分对文本语义表达的价值。

其反向遮罩体现在屏蔽S2步骤所产生的高价值语义单位的影响，而保留其他文本语义的表达，这种过程也称AntiMask。其反向重要性权重

可以由公式(14)和公式(15)体现，其中/>

为式(3)中重要性，/>

为式(8)中相对重要性。式(14)中/>

较式(15)中

在功能上保留了原有S2过程产生的非重要/>

权重。

对于关键信息评估方法，本发明提出采用人工评估和置信度评估的两种方式，分别从主观合理性和客观有效性对S3中关键信息及模型性能进行评估。

专家评估的实施方案为通过构建调查问卷：关于测试文本的关键词调查，分别发给各位专家进行独立作答，在收集完成后，经由数据清洗和分词后，与由步骤S3中提取的关键信息进行如式(11)至式(13)的专家评估得分。在本例中，共邀请7位专家进行评估。表3反映了评估阈值θ＝80％时专家对SeqMask的评估得分与平均分。表4反映了随评估阈值θ改变时，式(13)中

的变化。图4为本发明在网络威胁情报技战术关键信息抽取上的人工评估平均得分随随评估阈值θ改变的变化。

表3.当评估阈值θ＝80％时专家评估得分

/>

表4.专家平均评分随评估阈值θ的变化

置信度评估建立在使用以S4中AntiMask深度神经网络作为对SeqMask抽取的关键信息的客观有效性评价。对网络威胁情报的技战术分析场景，选择使用预训练良好的SeqMask在网络威胁情报战术分类模型，并将该模型中涉及式(3)中的

改写为式(14)或式(15)中的/>

参与分类计算。表5展示了分别使用/>

和/>

通过改变评估阈值θ，探究AntiMask在网络威胁情报战术分类的效果损失。

表5.本发明在网络威胁情报技战术关键信息抽取上的置信度评估得分

本发明提出一种基于弱监督学习的网络威胁情报文本关键信息抽取方法，主要思想是结合知识表示学习，采用基于局部序列的注意力机制，利用文本主题标签，实现弱监督学习文本的关键信息抽取，并使用人工评估与置信度评估方式验证抽取信息质量，确保信息真实可靠可信的完整方法。