CN111444704B

CN111444704B - 基于深度神经网络的网络安全关键词抽取方法

Info

Publication number: CN111444704B
Application number: CN202010229237.2A
Authority: CN
Inventors: 宋虹; 陈济民; 林丹丹; 王伟平
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2023-09-19
Anticipated expiration: 2040-03-27
Also published as: CN111444704A

Abstract

本发明公开了一种基于深度神经网络的网络安全关键词抽取方法，包括采集网络安全文本数据集；构建深度神经网络并对网络安全文本数据集进行训练得到训练后的深度神经网络模型；采用训练后的深度神经网络模型对分词系统词库进行扩展；对分词之后的文本集合进行文本关键词的抽取并得到最终的网络安全关键词抽取结果。本发明提出了一种深度神经网络来改进文本分词的不足，并通过文本中每个词语的位置以及词性来提取文本的关键词集合；因此，本发明方法能够有效的提取网络安全文本中的关键词集合，具有较高的准确率，而且可靠性高，实用性好。

Description

基于深度神经网络的网络安全关键词抽取方法

技术领域

本发明属于信息技术领域，具体涉及一种基于深度神经网络的网络安全关键词抽取方法。

背景技术

随着经济技术的发展和人们生活水平的提高，信息安全已经成为了人们生产和生活中越来越关注的问题。

然而，近年来，我国的互联网技术发展十分迅猛，人们对网络信息时代的依赖性增强，各种各样的网络攻击也不断增多，这些网络攻击已经严重影响到了我们的日常生活。网络安全热点事件挖掘已经成为了当前网络安全行业的关注重点，多个发达国家已经成立了专门的网络安全组织对网络安全热点事件挖掘与舆情监控。网络安全关键词抽取从网络安全文本集合中抽取能够概括网络安全事件信息以及重要性的词语或者是短语，是网络安全热点事件挖掘与深度分析的重要基础部分。

关键词抽取主要包含三个步骤：文本分词、去停用词、关键词评分。目前的中文文本分词主要利用文本分词工具来实现，主流的有结巴分词、snowNLP分词等，该分词工具的原理是利用分词系统中的分词词库以及字符匹配的方法来对文本自动化分词。由于网络安全领域的特异性、多元性导致大部分网络安全词汇没有出现在分词工具的词库中。去停用词即去除文本中对文本主旨没有意义的词语，这些词往往是介词、连词、副词等没有实际意义的词。关键词评分通常根据词语在文本中的特征作为评价指标，词语的特征评价有以下几类：基于词语权重统计的、基于词语主题信息分布的、基于词语之前语法关系的特征评价。

目前的关键词抽取技术在网络安全文本中主要存在这些不足：当前分词系统对与网络安全领域词汇分词效果不高，需要对分词系统进行改进。并且关键词的评分技术对于网络安全文本中的词汇提取效果不高，无法展示网络安全文本的关键主旨。

发明内容

本发明的目的在于提供一种可靠性高、实用性好且准确率较高的基于深度神经网络的网络安全关键词抽取方法。

本发明提供的这种基于深度神经网络的网络安全关键词抽取方法，包括如下步骤：

S1.采集网络安全文本数据集；

S2.构建深度神经网络；

S3.采用步骤S2构建的深度神经网络，对步骤S1获取的网络安全文本数据集进行训练，得到训练后的深度神经网络模型；

S4.采用步骤S3得到的训练后的深度神经网络模型，对分词系统词库进行扩展；

S5.根据词语的位置特性和词性，对分词之后的文本集合进行文本关键词的抽取，从而得到最终的网络安全关键词抽取结果。

步骤S1所述的采集网络安全文本数据集，具体为采用爬虫技术采集网络安全文本数据集。

所述的采用爬虫技术采集网络安全文本数据集，具体为采用如下步骤获取网络安全文本数据集：

A.对安全文本数据集进行定义；

B.采用爬虫技术采集网络安全文本数据集；

C.对步骤B采集的网络安全文本数据集进行数据清理，从而得到最终的清理后的网络安全文本数据集。

步骤S2所述的构建深度神经网络，具体为采用如下步骤构建深度神经网络：

a.采用此向量训练模型，将步骤S1获取的网络安全文本数据集转换为词向量序列；

b.采用BiLSTM神经网络结构，对步骤a得到的词向量序列进行处理，从而得到每个字符在神经网络中各个标签类别的概率；

c.对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理，从而得到最终的每个字符的标签类别。

步骤c所述的对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理，从而得到最终的每个字符的标签类别，具体为采用条件随机场作为标签分类层，对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理，从而得到最终的每个字符的标签类别。

步骤S3所述的采用步骤S2构建的深度神经网络，对步骤S1获取的网络安全文本数据集进行训练，具体为采用如下步骤进行训练：

(1)对网络安全实体的类别进行定义；

(2)对网络安全命名实体的标注方式进行定义；

(3)对训练集进行标注；

(4)将步骤(3)得到的标注后的训练集输入步骤S2得到深度神经网络模型进行特征学习。

步骤S4所述的采用步骤S3得到的训练后的深度神经网络模型，对分词系统词库进行扩展，具体为采用如下步骤进行扩展：

1)将文本输入步骤S3得到的训练后的深度神经网络模型，从而得到文本中的实体类别标签分类；

2)根据步骤1)中的实体类别标签分类结果，对文本中的实体进行自动分类和组合，从而得到文本中所用的网络安全实体集合；

3)将步骤2)得到的网络安全实体集合作为结巴分词的扩充词典，并通过结巴分词的分词函数对文本进行分词，从而得到最终的分词后的文本集合。

步骤S5所述的根据词语的位置特性和词性，对分词之后的文本集合进行文本关键词的抽取，从而得到最终的网络安全关键词抽取结果，具体为采用如下步骤进行抽取：

Ⅰ.采用如下算式计算每篇文本中每个词语的TF频数tf_ij：

式中tf_ij为第i篇文本的第j个词语频数表示；n_i,j为第i篇文本的第j个词语在第i篇文本中出现的次数；n_k,j为第i篇文本中的第k个词语出现的次数；k为第i篇文本中的第k个词语；

Ⅱ.采用如下算式计算每个词语的IDF逆文档频率idf_ij：

式中idf_ij为第i篇文本的第j个词语逆文档频率；w_i,j为第i篇文本的第j个词语在第i篇文本中出现的次数；s_i,j为第i篇文本的第j个词语全文文本中出现的次数；

Ⅲ.采用如下算式计算每个词语的权重v：

式中v为词语的权重比值；α为词语在标题中的时候的权重比值，本文取1.3；β为词语属于网络安全实体时的权重取值，本文取1.5；

Ⅳ.采用如下算式计算每个词语的TF-IDF权值tfidf_ij：

tfidf_ij＝tf_ij*idf_ij*v

式中tfidf_ij为每个词语的权重；tf_ij为每个词语的TF频数；idf_ij为每个词语的IDF逆文档频率；v为词语的权重比值；

Ⅴ.根据步骤Ⅳ得到的权值，获取文本中每个词的权重排序，从而得到每篇文本中前若干个关键词集合。

本发明提供的这种基于深度神经网络的网络安全关键词抽取方法，提出了一种深度神经网络来改进文本分词的不足，并通过文本中每个词语的位置以及词性来提取文本的关键词集合；因此，本发明方法能够有效的提取网络安全文本中的关键词集合，具有较高的准确率，而且可靠性高，实用性好。

附图说明

图1为本发明方法的方法流程示意图。

具体实施方式

如图1所示为本发明方法的方法流程示意图：本发明提供的这种基于深度神经网络的网络安全关键词抽取方法，包括如下步骤：

S1.采集网络安全文本数据集；具体为采用爬虫技术采集网络安全文本数据集；

在具体实施时，采用如下步骤获取网络安全文本数据集：

A.对安全文本数据集进行定义；

定义待收集的文本数据集集合表示形式为G＝{T,A,S}，其中T表示文本的标题，A表示文本的正文，S表示文本的来源网址；同时定义三元组{G,data_method,S}，表示从来源网址为S的网站通过data_method的数据采集方法得到数据集合G；

B.采用爬虫技术采集网络安全文本数据集；

收集国内各大安全媒体的安全资讯网址链接并定义为Link＝{Name，source}，其中Name表示安全媒体的名称，source表示该网址的链接；使用Python编程语言的scrapy爬虫框架定位到每个网址source标题T，正文A所在的网页地址，使用json格式下载地址的相关内容，同时将T、A、Link和source作为4个字段在数据库中新建一个网络安全文本集合表，将所有的数据读存储到数据库中；

C.对步骤B采集的网络安全文本数据集进行数据清理，从而得到最终的清理后的网络安全文本数据集；

通过爬虫下载的网页正文A通常都含有图片、链接、代码块等会干扰文本分析的数据，因此需要对安全文本的正文部分进行数据清理；从数据库中取得所有A的字段，并将A字段从json格式转换为字典格式dict_A，并且利用正则表达式去除掉正文中的图片、链接、代码块等不必要的数据；

S2.构建深度神经网络；具体为采用如下步骤构建深度神经网络：

a.采用此词向量训练模型，将步骤S1获取的网络安全文本数据集转换为词向量序列；

输入的原始文本的形式为汉字，无法被神经网络直接训练，因此需要转化为向量形式；文本词向量输入层是模型的最底层，输入为需要分词的文本，输出为由文本序列转化成的词向量序列，用于神经网络训练；采用谷歌发布的BERT(Bidirectional EncoderRepresentation from Transformers)词向量预训练模型作为文本的词向量输入；BERT词向量模型结合了文本中词语的语法以及语义信息，同时以字符作为最小单元进行训练，解决了网络安全领域文本的词汇向量表示问题，其中BERT的相关参数如下表所示：

表1BERT相关参数示意表

参数	大小
		Hidden	768
Parameters	110M
		Layer	12
Heads	12

本层接收文本词向量层的词向量输出，并采用合适的神经网络模型来提取文本特征；BiLSTM(Bi-directional Long Short-Term Memory)能更有效地利用文本序列的上下文信息，可以更好地提取文本特征；因此利用BiLSTM神经网络结构来整合两个方向的LSTM神经网络的输出，并将其拼接起来作为整体传入下一层；输入为文本的词向量表示，输出为每个字符在神经网络中各个标签类别的概率；

c.对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理，从而得到最终的每个字符的标签类别；具体为采用条件随机场作为标签分类层，对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理，从而得到最终的每个字符的标签类别；

在具体实施时，本层接收深度神经网络输出的每个字符的标签类别概率，并对其进行归一化处理，最终得到每个字符的标签类别；虽然BiLSTM学习到了上下文的信息，但是输出相互之间并没有影响，它只是在每一步挑选一个最大概率值的label输出；这样就会导致如B-PER后再接一个B-PER的问题；而标签分类层中有转移特征，即它会考虑输出标签之间的顺序性，因此需要将概率值输入到标签分类层来对每个字符的输出类别做规范，本方法的标签分类层选择CRF(conditional random field，条件随机场)来限制最终的模型预测结果；

S3.采用步骤S2构建的深度神经网络，对步骤S1获取的网络安全文本数据集进行训练，得到训练后的深度神经网络模型；具体为采用如下步骤进行训练：

(1)对网络安全实体的类别进行定义；

定义网络安全实体集合L＝{PER、LOC、ORG、SW、RT}，其中PER表示人名，LOC表示地点，ORG表示组织名，SW表示软件名，RT安全术语；

(2)对网络安全命名实体的标注方式进行定义；

采用BIO标注方式，B代表begin，表示实体的开始部分；I代表inside，表示实体的中间部分；O代表outside，表示不属于实体类型；

(3)对训练集进行标注；

通过命名实体识别工具StanfordNLP输入文本集合G，通过自动标注函数输出自动标注后的文本集合，然后人工对数据集补充和修正之后得到命名实体识别模型的训练数据集D{D1,D2,D3,D4…}，D表示所有标注好的文本集合；

标注好的每个字符分别有B-PER、I-PER、B-LOC、I-LOC、B-SW、I-SW、B-ORG、I-ORG、B-RT、I-RT、O这些标注类型；

(4)将步骤(3)得到的标注后的训练集输入步骤S2得到深度神经网络模型进行特征学习；

S4.采用步骤S3得到的训练后的深度神经网络模型，对分词系统词库进行扩展；具体为采用如下步骤进行扩展：

将文本输入深度神经网络训练好的中的深度神经网络模型bert_model，定义自定义词典dict_safe＝{PER,LOC,ORG,SW,RT}，其中PER表示通过命名实体识别模型识别出来的人名集合，LOC表示通过模型识别出来的地点集合，ORG表示通过模型识别出来的组织集合，SW表示识别出来的软件名集合，RT表示识别出来的安全术语集合；

然后通过模型的识别函数识别文本的命名实体，该函数首先将输入的文本中的每一个字符通过词向量层获取该字符的向量表示word_i，获取到该字符的向量表示后将其输入到深度神经网络层，通过神经网络层获取到该字符的上下文语义，并且输出该字符的每个标签类别的输出概率P，该概率的表示如下所示：

P＝P(P(B-PER),P(I-PER),...,P(O))

然后将输出的标签概率输入到标签分类层通过概率规范获取到每个单词最终的标签类别，最终输出文本的序列标注集合lable_sort＝{lable₁,lable₂,...,lable_n}，其中n表示该文本的字符数量，lable_n表示在第n个字符的实体类别标注；

通过上述步骤获得文本中每个字符的序列标注集合lable_sort，接下来根据每个字符的标签类别对具有先后顺序的相同类型标签进行组合，即如果第i个单词的标签为B-PER且i+1个单词的标签为I-PER，则将第i个单词和第i+1个单词合并起来，知道相邻下一个字符的标签不为I-PER，其他的标签类别也做同样的处理，最终得到文本中的所用网络安全实体集合safe_dict＝{PER,LOC,ORG,SW,RT}，本方法通过选取2000篇网络安全文本并对其中的安全实体进行自动分类，其中人为找出的网络安全实体数为13567个，而通过本方法识别出来的安全实体数为11613个，识别准确率为85.6％，而通过传统的分词工具准确将网络安全实体分词的个数为4163个，识别的准确率仅为30.7％，大大提高了分词工具的安全实体识别率；

3)将步骤2)得到的网络安全实体集合作为结巴分词的扩充词典，并通过结巴分词的分词函数对文本进行分词，从而得到最终的分词后的文本集合；

将步骤2)中的自定义词典dict_safe作为结巴分词的扩充词典，加入到结巴分词中，然后通过结巴分词的分词函数对文本进行分词，就是将文本中的词语与结巴分词的词库做字符匹配，以获取文本的分词集合S{word1，word2，word3…}，最终得到分词后的文本集合DS{DS1,DS2,DS3…}；

S5.根据词语的位置特性和词性，对分词之后的文本集合进行文本关键词的抽取，从而得到最终的网络安全关键词抽取结果；具体为采用如下步骤进行抽取：

Ⅰ.采用如下算式计算每篇文本中每个词语的TF频数tf_ij：

Ⅱ.采用如下算式计算每个词语的IDF逆文档频率idf_ij：

Ⅲ.采用如下算式计算每个词语的权重v：

Ⅳ.采用如下算式计算每个词语的TF-IDF权值tfidf_ij：

tfidf_ij＝tf_ij*idf_ij*v

以下结合具体实施例，对本发明方法进行进一步说明：

实例1：

本实验取网络安全文本共2000篇，人工分词数为134682词，其中人为识别实体总数为13567。定义分词准确率以及实体识别准确率公式如下：

表2分词方法的准确率比较

由表2可知：在未结合深度神经网络学习之前分词系统对网络安全实体的识别率只有30％左右，原因是在分词系统的词库中没有相应的网络安全实体这些词汇，导致无法识别出来，而加入深度学习神经网络训练后，分词系统对网络安全实体的识别率达到了85.6％，并且分词系统在网络安全文本的准确率也提升了了5％，由此可以看出深度神经网络的训练提升了分词系统在网络安全词汇的识别效果。

实例2：

本实例说明上述方法在实际网络安全文本关键词抽取应用中的准确性。从国内各大安全媒体收集每日安全资讯文本共2000篇，以安全资讯中的关键词提示以及人工抽取的方法抽取7个关键词作为关键词标准，关键词抽取的方式采用公平并且能代表全文主旨的思想进行。方法1为传统关键词抽取方法TF-IDF，实验2为TextRank抽取算法，实验3为结合word2vec与TextRank的关键词抽取算法，实验4为基于注意力机制的关键词抽取算法，实验5为本文的抽取方法。评估指标如下：

测试结果如下表3所示：

表3不同关键词抽取的准确率比较

实验方法	Pecision	Recall	F1
				1	0.548	0.548	0.548
2	0.491	0.512	0.461
				3	0.587	0.598	0.521
4	0.629	0.669	0.649
				5	0.684	0.702	0.693

通过表3可以发现，本文提出的方法在准确率pecision上比目前主流的基于注意力机制的关键词抽取方法提升了6％，Recall提升了4％，F1值提升了5％，原因是基于神经网络的关键词抽取方法不仅提升了分词系统对网络安全实体的识别率，而且充分考虑了文本中词语的位置特征与词性特征。在网络安全领域文本处理中，本文提出的方法更适用于网络安全文本的关键词抽取。

Claims

1.一种基于深度神经网络的网络安全关键词抽取方法，包括如下步骤：

S1.采集网络安全文本数据集；具体为采用爬虫技术采集网络安全文本数据集，具体包括如下步骤：

A.对安全文本数据集进行定义；

B.采用爬虫技术采集网络安全文本数据集；

(1)对网络安全实体的类别进行定义；

(2)对网络安全命名实体的标注方式进行定义；

(3)对训练集进行标注；

Ⅰ.采用如下算式计算每篇文本中每个词语的TF频数tf_ij：

Ⅱ.采用如下算式计算每个词语的IDF逆文档频率idf_ij：

Ⅲ.采用如下算式计算每个词语的权重v：

Ⅳ.采用如下算式计算每个词语的TF-IDF权值tfidf_ij：

tfidf_ij＝tf_ij*idf_ij*v