CN113961933A

CN113961933A - 一种基于改进Bert模型的信息安全漏洞分类方法

Info

Publication number: CN113961933A
Application number: CN202111227292.9A
Authority: CN
Inventors: 王杰华; 石锴; 武卫翔; 张金宝; 朱飞宇
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-21
Anticipated expiration: 2041-10-21
Also published as: CN113961933B

Abstract

本发明涉及信息安全和自然语言处理技术领域，具体涉及一种基于改进Bert模型的信息安全漏洞分类方法，包括步骤a、数据预处理，从语料库中搜集所有漏洞信息数据作为数据集，通过过滤和清洗的方式对数据集进行预处理，其数据集格式为<漏洞文本描述，漏洞类别>；采用分词方式将数据集分为一个个字作为输入序列X＝(x₁，x₂，…，x_n)。本发明首先对数据进行清洗和过滤，剔除数据集中的噪音数据，可提升信息安全漏洞分类模型的表现；本发明其次引入基于预训练的Bert模型对漏洞进行分类；最后在词嵌入层加入对抗训练FGM、双向编码器后加入多样本随机丢弃(multi‑sample dropout)和标签平滑Focal Loss等技巧提升模型鲁棒性和泛化能力，进一步提升漏洞分类的准确率。

Description

一种基于改进Bert模型的信息安全漏洞分类方法

技术领域

本发明涉及信息安全和自然语言处理技术领域，具体涉及一种基于改进Bert模型的信息安全漏洞分类方法。

背景技术

随着信息技术的快速发展，互联网以及计算机的应用已经渗透到人类生产生活的各个方面。然而，网络安全问题影响到国家、企业和个人的经济损失。因此，网络安全问题迅速受到人们的重视。目前，漏洞数量增长迅猛，已成为威胁网络和信息系统安全的主要诱因。由于新漏洞的大量增加，如何准确、高效地评估网络中安全漏洞的威胁程度已成为网络安全分析领域的重要挑战。传统的安全漏洞分析方法需要大量的人工参与，不仅费时费力，而且遗漏了大量的漏洞，漏报率很高。因此，对信息安全漏洞进行规范、合理的分类并对其进行危害评估，有助于国家漏洞数据库的建设，给广大从事于信息安全与网络安全的研究人员提供完整的数据来源；有助于增强对漏洞本质的进一步理解。

近年来，刘春刚等人借鉴文本挖掘的思想和方法，选取了世界计算机安全应急小组(CERT)三年内两千多个数据，并将支持向量机(Support Vector Machine,SVM)文本分类技术应用到漏洞管理中，实现了漏洞的自动分类。Yamamoto等人将机器学习与文本挖掘技术相结合，将美国国家信息安全漏洞库(NVD)上的数据应用在LDA、SLI和SLDA模型提取NVD文本的主题，并利用主题对漏洞特征进行评估。同时引入线性函数和sigmoid函数进行权重分配，提高了分类和预测的准确性。Ghaffarian等人比较了决策树、支持向量机和神经网络三种方法对漏洞描述文本进行分析，并对相应的评价值进行了分类。Hou等人提出了一种基于梯度提升决策树(Gradient Boosting Decision Tree，GBDT)的安全漏洞威胁分类方法，并从半结构化漏洞描述中提取有效特征。Wang等比较了多种机器学习方法，如支持向量机(SVM)、逻辑回归(Logistic Regression，LR)、随机森林(Random Forest，RF)和极端梯度提升(XGBoost)智能预测漏洞安全级别。随着信息安全漏洞数量的增加，传统的机器学习的劣势越来越凸显，比如准确性差、需要复杂的特征工程等。而深度神经网络凭借一流的性能在许多领域取得了远远超过传统机器学习方法的精度。

目前，深度学习技术已经广泛应用于图像处理、语音识别和自然语言处理。漏洞描述文本是一种非结构化的时间序列数据。Zhou等人利用长短期记忆网络(long-shortmemory networks，LSTM)进行文本分类，取得了优异的性能。S.Lai引入循环卷积神经网络(Region-CNN，RCNN)，用于不含人工设计特征的文本分类，该方法在多个数据集中优于最先进的方法。但上述深度学习方法对模型的训练仅局限于自身的数据集，缺少先验知识，易出现随机初始化和过拟合的现象。

为了解决上述问题，本文根据自然语言处理领域中预训练模型发展的启发，提出了一种针对信息安全领域并基于Bert的漏洞分类方法，进一步提高了分类模型的准确率并减少传统人工方法的工作量和误判率。

发明内容

针对以上问题，本发明提供了一种基于改进Bert模型的信息安全漏洞分类方法，用于提高分类模型的准确率并减少传统人工方法的工作量和误判率。

为了实现上述目的，本发明采用的技术方案如下：

一种基于改进Bert模型的信息安全漏洞分类方法，包括以下步骤：

步骤a、数据预处理，从语料库中搜集所有漏洞信息数据作为数据集，通过过滤和清洗的方式对数据集进行预处理，其数据集格式为<漏洞文本描述，漏洞类别>；采用分词方式将数据集分为一个个字作为输入序列X＝(x₁，x₂，…，x_n)；

步骤b、训练模型，将上述分词输入进Bert模型，首先对Position嵌入和Token嵌入的学习，将学习到的两个嵌入向量叠加在一起，得到漏洞文本描述的嵌入特征向量X；再通过双层编码器进行漏洞文本语义的学习；

步骤c、分类处理，将相同的数据集对已有的漏洞文本分类模型进行训练。

优选地，所述步骤a中，包括：

选择中国国家信息安全漏洞库(CNNVD)2000-2020年中收录的所有漏洞信息数据作为数据集，该数据集总共包含128,299个漏洞信息；

将数据集中的数据按照4∶1的比例划分为训练集和测试集，其中训练集的数量为102416，测试集的数量为25883；根据漏洞类型的描述分类分为9种类别，该9种类别分别是“配置错误”；“资料不足”；“资源管理错误”；“输入验证”；“数字错误”；“信息泄露”；“安全特征问题”；“竞争条件”和“其他”。

优选地，所述步骤b中，包括：

1、词嵌入层，在该词嵌入层中加入对抗训练，以提升模型的鲁棒性和泛化能力；

2、双向编码器，将上述词嵌入层得到的向量输入到双向编码器中，进行语义学习；

3、多样本随机丢弃，创建多个dropout样本，计算每个样本的损失，然后取样本损失的平均值，得到最终的损失；

4、标签平滑，通过减少易分类样本的权重，使模型在训练时更专注于难分类的样本。

优选地，所述双向编码器包括：首先，模型将向量X输入到多头注意力机制层；然后，该模型利用残差连接和层归一化使矩阵操作维度一致，并将网络中的隐含层归一化为标准正态分布，可以加快模型的训练速度和收敛速度；在下一步，模型输入到前馈神经网络层，经过两层线性映射和激活函数；最后通过Softmax函数得到相应的漏洞文本。

本发明有益效果：

1、本发明首先对数据进行清洗和过滤，剔除数据集中的噪音数据，可提升信息安全漏洞分类模型的表现。

2、本发明其次引入基于预训练的Bert模型对漏洞进行分类；最后在词嵌入层加入对抗训练FGM、双向编码器后加入多样本随机丢弃(multi-sample dropout)和标签平滑Focal Loss等技巧提升模型鲁棒性和泛化能力，进一步提升漏洞分类的准确率。

附图说明

图1是本发明的方框图。

图2是本发明中双向编码器的结构示意图。

具体实施方式

下面结合附图将对本发明实施例中的技术方案进行清楚、完整地描述，以使本领域的技术人员能够更好的理解本发明的优点和特征，从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1-图2，一种基于改进Bert模型的信息安全漏洞分类方法，包括以下步骤：

步骤a、数据预处理，选择中国国家信息安全漏洞库(CNNVD)2000-2020年中收录的所有漏洞信息数据作为数据集，该数据集总共包含128,299个漏洞信息，其数据集格式为<漏洞文本描述，漏洞类别>。

使用中文分词对漏洞文本描述进行分词，将一个汉字序列进行切分，得到一个个单独的词。这里选择按字分词的方式，将数据集分为一个个字作为输入序列X＝(x₁，x₂，…，x_n)。

通过过滤和清洗的方式对数据集进行预处理，本实施例主要考虑两个问题：过滤缺失数据和去除特殊字符。在处理数据集时，发现部分数据在漏洞描述或者漏洞类型描述字段有缺失的情况，本实施例先对此类缺失数据进行删除，接着再对漏洞描述字段中的特殊字符通过正则表达式进行清理。由于中文分词与英文分词有很大的不同，对英文而言，一个单词就是一个词，而汉语是以字为基本单位，词语之间没有明显的区分标记。本实施例使用的语料库大都为中文数据，中文分词将一个汉字序列进行切分，得到一个个单独的词。这里选择按字分词的方式，把数据集分为一个个字作为输入序列X＝(x₁，x₂，…，x_n)。

步骤b、训练模型，将上述分词输入进Bert模型，首先对Position嵌入和Token嵌入的学习，将学习到的两个嵌入向量叠加在一起，得到漏洞文本描述的嵌入特征向量X；再通过双层编码器进行漏洞文本语义的学习。Bert使用Transformer作为算法的主要框架，因为Transformer可以更彻底地捕捉句子中的双向关系。具体过程如下：

1.词嵌入层：

在这一层中，模型通过词嵌入(Embedding)的方式学习单词之间的关系向量，通过位置编码(PositionalEncoding)的方式学习单词在句子中的位置关系向量。最后，将上述两个词嵌入层中得到的关系向量相加，得到最终的特征向量表示。

X＝Embedding(X)+PositionalEncoding (1)

其中

seq_len表示输入序列的长度，embed_dim表示单词嵌入的维数。

在这层加入对抗训练FGM提供了一种正则化监督学习算法的方法，这种方法需要对输入向量的众多数据中进行小的扰动，然后放给模型训练，于是模型就有了识别对抗样本的能力，这样可以提升模型的鲁棒性和泛化能力。

实现细节就是在原始输入序列X的嵌入层，即在Embedding(X)上加一个扰动r_adv，得到对抗样本后用其进行训练，即

该公式分为两个部分，一个是内部损失函数的最大化，一个是外部风险的最小化。内部max，L为定义的损失函数，S为扰动的空间，此时本实施例的目的是求得让判断失误最多情况下扰动的量，即求得最佳的攻击参数；外部min，针对上述的攻击，找到最鲁棒的模型参数，进一步优化模型参数，其中D是输入样本的分布。而FGM增加的扰动为：

r_adv＝∈·g/||g||₂ (3)

新增的对抗样本为：

x_adv＝x+r_adv (5)

2.双向编码器

接着，将嵌入层(Embedding)得到的向量输入到双向编码器(BidirectionalEncoder)层，自注意力机制处理完数据后把数据送给前馈神经网络，前馈神经网络的计算可以并行，得到的输出会输入到下一个编码器。如图2所示。

a.自注意力(self-attention)机制：

自注意力机制能帮助当前节点不仅仅只关注当前的词，还能获取到上下文的语义。在self-attention中，Q＝K＝V每个序列中的单元和该序列中所有单元进行attention计算。自注意力机制的公式可以定义为：

self-attention的特点在于无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构，实现也较为简单并且可以并行计算。

b.残差连接和层归一化：

X_attention＝X+X_attention (7)

X_attention＝LayerNorm(X_attention) (8)

层归一化可以缓解梯度消失或者梯度爆炸的问题，并加速训练和正则化的效果。残差连接可以解决网络退化的问题。

c.前馈神经网络层：

3.多样本随机丢弃

Dropout是一种简单而有效的正则化技术，可以更好地泛化深度神经网络。在训练过程中，dropout随机丢弃一部分神经元，以避免过度拟合。而多样本的dropout技术，它既可以加速训练，又可以提高在原始dropout基础上的泛化能力。在每次训练迭代中，原始的dropout从输入中创建一个随机选择的子集(称为dropout样本)，而多样本的dropout创建多个dropout样本。接着计算每个样本的损失，然后取样本损失的平均值，得到最终的损失。该方法以最后的损失值作为优化训练的目标函数，以最后一个全连接层输出的最大值的类标签作为预测标签。

4.标签平滑

标签平滑Focal loss主要是为了解决难易样本数量不平衡的问题。通过减少易分类样本的权重，使模型在训练时更专注于难分类的样本。这个损失函数是在标准交叉熵损失基础上修改得到的。在训练的时候正负样本的数量差距很大，可以通过设定一个系数α∈[0，1]来控制正负样本对总的loss的共享权重，定义α_t和定义p_t类似：

CE(p_t)＝-α_tlog(p_t) (10)

前面的公式虽然可以控制正负样本的权重，但是不能控制难易分类样本的权重，引出focal loss函数：

FL(p_t)＝-(1-p_t)γlog(p_t)，γ≥0 (11)

这里(1-p_t)^γ称为调制系数，它的目的是通过减少易分类样本的权重，从而使得模型在训练时更加专注于难分类的样本。

结合上述公式(10)和(11)，既能调整正负样本的权重，又能控制难易分类样本的权重：

FL(p_t)＝-α_t(1-p_t)γlog(p_t) (12)

本实施例中γ＝2，α＝0.25的效果最好。

步骤c、分类处理，将相同的数据集对已有的漏洞文本分类模型进行训练。经实验表明，本发明提出的分类方法最后的分类效果要优于已有的方法。

表1基于Accuracy指标的实验结果

表2基于Precision指标的实验结果

表3基于Recall指标的实验结果

表4基于F1值指标的实验结果

为了评估漏洞文本分类模型的表现，采用Accuracy，Precision，Recall以及F1值作为评估指标，如表所示，整体而言，本发明使用的改进Bert模型要优于其他传统方法。

综上所述，本发明先将输入序列X输入到加入对抗训练的词嵌入层，再通过多头注意力层，利用自注意力机制计算各层的attention。然后模型将其输入到残差连接和归一化层，并将编码中的隐含层归一化为标准正态分布，以加快训练速度和加速收敛。下一步是输入到前馈层，经过两层线性映射和激活函数。最后，重复上述步骤N次，N为编码层数。中间加入multi-sample dropout和Focal loss这两个技巧，以提高模型的鲁棒性和泛化能力。

以上对本发明的实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于改进Bert模型的信息安全漏洞分类方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于改进Bert模型的信息安全漏洞分类方法，其特征在于：所述步骤a中，包括：

将数据集中的数据按照4：1的比例划分为训练集和测试集，其中训练集的数量为102416，测试集的数量为25883；根据漏洞类型的描述分类分为9种类别，该9种类别分别是“配置错误”；“资料不足”；“资源管理错误”；“输入验证”；“数字错误”；“信息泄露”；“安全特征问题”；“竞争条件”和“其他”。

3.根据权利要求1所述的一种基于改进Bert模型的信息安全漏洞分类方法，其特征在于：所述步骤b中，包括：

4.根据权利要求3所述的一种基于改进Bert模型的信息安全漏洞分类方法，其特征在于：所述双向编码器包括：首先，模型将向量X输入到多头注意力机制层；然后，该模型利用残差连接和层归一化使矩阵操作维度一致，并将网络中的隐含层归一化为标准正态分布，可以加快模型的训练速度和收敛速度；在下一步，模型输入到前馈神经网络层，经过两层线性映射和激活函数；最后通过Softmax函数得到相应的漏洞文本。