CN111538893B

CN111538893B - 一种从非结构化数据中提取网络安全新词的方法

Info

Publication number: CN111538893B
Application number: CN202010353099.9A
Authority: CN
Inventors: 黄诚; 李滢; 程嘉兴
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2021-01-05
Anticipated expiration: 2040-04-29
Also published as: CN111538893A

Abstract

地下黑客社区作为黑客的在线社交平台，是黑客们进行交流和传播黑客技术和工具的重要场所。在这些社区中，许多最新的信息直接或间接影响网络攻击，从而威胁到企业或个人的资产。因此，诸如黑客论坛之类的社交媒体对网络安全领域具有重大影响。而从黑客社区（例如新兴的黑客团体和黑客工具）自动识别相关词和新词的成功率较低。本发明基于自然语言处理技术，通过对词汇本身的特征提取以及上下文进行分析，提出了一种从非结构化数据中提取网络安全新词的方法。该方法结合词性、单词特征、字符特征以及词汇相似度，利用卷积神经网络提取单词中的字符特征，使用双向长短期记忆神经网络构成框架，并结合词库和谷歌趋势综合判断以提取新词。

Description

一种从非结构化数据中提取网络安全新词的方法

技术领域

本发明涉及网络信息安全、大数据技术等领域，针对网络安全领域的新词提取方法，提出了一种基于深度学习的从非结构化数据中提取网络安全新词提取的方法。通过一维卷积神经网络的到词汇的字符特征，并对语句中的每一个词汇的词性特征、词向量、词汇特征、字符特征进行拼接，然后利用双向长短期记忆神经网络进行模型的构建，实现对黑客工具、组织名、用户名的检测。并将检测出的相关词汇与词库中的词汇进行比较，同时结合谷歌趋势进行判断，最终判断并提取出网络安全新词。

背景技术

随着互联网的飞速发展，网络安全形势日益复杂。作为网络攻击的参与者，黑客在网络安全中扮演着重要角色。作为黑客交流，传播黑客知识和交换工具的平台之一，黑客社区是网络罪犯传播恶意软件变种和黑客工具的市场。通常，在网络攻击发生之前，黑客组织很可能会在黑客社区中提出有关攻击的信息，并且通常会涉及相关的黑客工具，并且在黑客社区的相关文章中都会对工具进行描述。因此，攻击的踪迹或意图通常会出现在某些黑客沈河区中。及时发现工具、组织、用户名等新词，可以及时预警网络攻击。

地下黑客论坛中的数据对威胁情报、社交网络的分析以及黑话的检测都有着重要的意义。网络安全新词的出现是频繁的，而人工审查非常耗时耗力，并且漏报率较高，通常在这类词汇被人们广泛使用时才被大多数人所了解，目前从黑客社区的非结构化数据中自动识别相关词汇和新词的成功率较低，需要不断地实时监控相关平台中的内容。

目前，机器学习、自然语言处理等技术已经广泛应用于网络安全领域。通常对于新词的发现都会结合词频进行判断，然而在词汇刚出现、词频较低时却无法进行检测，从而信息的延迟为网络攻击的预警产生了一定的困难。利用词汇本身的特征以及所处上下文环境，并利用深度学习的方法可以检测出需要识别的某一类词汇，并且结合谷歌趋势进行综合判断，最终判断出新词。

本文基于上述思路，提出了一种从非结构化数据中提取网络安全新词的方法，以从文本内容中及时提取出相关网络安全新词。

发明内容

为了及时从非结构化文本内容中提取出网络安全新词，本发明提出了一种利用自然语言处理技术从非结构化数据中提取出网络安全新词的方法。其中首先需要构建黑客组织、用户名以及黑客工具的词库，这些数据来自于提供黑客工具的网站以及黑客论坛。从词汇、字符特征、词特征、词性四个维度对词汇进行表示并进行拼接，得到非结构化文本中词表示的向量。然后利用构造的特征向量根据建立好的模型进行序列标注，进而识别相关词汇，并综合利用谷歌趋势判断新词。该方法主要包括了数据收集模块、数据处理模块、模型构建模块和新词判决模块。

数据收集模块：收集地下黑客社区中的非结构化文本数据以及黑客组织名、用户名、工具名，作为原始语料库以及词库，得到训练数据。

数据处理模块：将上述模块中的文本数据进行处理，去除非ASCII字符，进行词形还原。然后对非结构化文本中的句子进行分词，利用Glove词向量得到每一个词的词向量，利用StanFordNLP得到每一个词的词性向量，利用一维卷积神经网络得到每一个词的字符特征向量，构建词汇信息特征表，并且表示每一个词的词特征向量。拼接上述四种向量，构建特征向量。

模型构建模块：该模块包含两个模型构建的过程。对于上一模块总的字符特征向量的获取使用一维卷积神经网络获取输出向量，利用常用于进行序列标注的长短期记忆神经网络来构建模型，输入在上一模块中构建的特征向量，判断非结构化文本中的网络安全领域命名实体。

新词判决模块：该模块主要用于判定所识别出的实体名称是不是新词。将上一模块识别出的实体在词库中进行比较，如果该词在词库中存在则为该种类型的词但不是新词，如果在词库中不存在，且在词库建立所处时间之前在谷歌趋势中没有足够的数据或者数据平缓但在之后有显著峰值则可判定为新词。

本发明与已有的新词发现的研究不同，本发明首先通过深度学习的方式判定某一词汇属于该领域，然后利用谷歌趋势进行综合判断是否是新词，而不是在新词词频大增，已被广泛使用后才发现。

附图说明

图1为本发明的框架示意图。

图2为本发明的数据处理模块中利用一维卷积神经网络提取词汇的字符特征的示意图。

图3为本发明的数据处理模块中词汇信息特征表。

图4为本发明的用于序列标注的模型构建示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步地详细说明，但本发明的实施方式不限于此。本发明是一种从非结构化数据提取网络安全新词的方法由数据处理模块、模型构建模块和新词判定模块组成。图1是本发明的框架示意图。图2是本发明的数据处理模块中利用一维卷积神经网络提取词汇的字符特征的示意图。图3是本发明的数据处理模块中词汇信息特征表。图4是本发明的用于序列标注的模型构建示意图。

数据收集模块：由于构建深度学习模型需要一定量的学习数据集，因此在初始阶段采集黑客社区中的文本内容、用户名，黑客工具提供网站所提供的工具，再在文本内容中手工标注黑客组织名、用户名、以及黑客工具名称，从而形成黑客用户名/组织名以及黑客工具名称的词库，该词库的建立是基于一定的时间。

数据处理模块：该模块主要分为原始非结构化数据处理和特征建立两个部分。原始数据处理是将收集到的黑客社区的语料库去除非ASCII字符但是不对单词进行小写化的操作，对句子进行编码得到一个单词序列，对序列中的每一个词利用NLTK进行词形还原，从而避免时态或者词汇的单复数形式的影响。特征建立分为词向量、词性向量、词特征向量以及字符特征向量的建立。对于词向量的表示，使用Glove 100维的词向量，此时需要将每个单词的所有字母都转化为小写形式再用该词向量进行表示，对于一些不规则的词汇无法查找到，则使用`UNKNOWN`进行表示。对于词性向量的表示，利用StanfordNLP得到句子中每一个词的词性，StanfordNLP对于词性的表示共有36中，利用one-hot编码表示每一个词的词性向量。在表示词向量的时候，所有字符都进行了小写化的表示，为了对每一个词的特征进行表示，构造了如图3所示的词特征的表示表，同样利用one-hot编码对每一个词的词特征进行向量表示。对于字符特征，利用一维卷积神经网络进行字符特征的提取，使用最大池化的方法，最终得到25维的字符特征向量。

模型构建模块：拼接通过预处理后得到的4种类型的特征向量，利用神经网络嵌入的方式，将拼接后的特征向量作为双向长短期记忆神经网络(BiLSTM)来构建模型，通过输出的每种类别的分数来判定属于哪一类。一旦检测到该词汇属于网络安全领域，就对其进行判定，判断其是否是新词。

新词判定模块：当该词汇被检测到属于网络安全领域(为工具或黑客用户名或黑客组织)时，先将词汇与词库中的词汇进行比较，如果该词汇存在于词库中，那么该词属于该领域但不是新词。如果该词不在词库中，就利用谷歌趋势获取该词汇的搜索热度，如果在词库建立时间之前该词在谷歌趋势中的数据较为平缓且在该时间之后有明显的增涨趋势，或在该时间之前该词在谷歌趋势中没有足够的数据，则将该词判定为新词并将其收录进词库，最终实现新词的判定。

Claims

1.一种从非结构化数据中提取网络安全新词的方法，其特征包括以下步骤：

A.结合网络静态和动态爬虫技术，提取网络安全社区中用户发言文本内容、用户基本信息以及留言内容，作为词汇原始数据仓库，并利用手工方式，对词汇原始数据仓库中相关语句进行标注，标注时不改变语句中出现的网络安全词汇的形式，并收集这些词汇形成基准网络安全词库；

B.对原始数据仓库进行数据处理，对其所包含的所有文本句子进行切词、清洗；

C.定义特征向量类型及生成方法，提取词汇的词向量、词性向量、词汇静态特征向量以及词汇的字符特征向量，具体的特征向量生成方法如下，

词汇固定长度词向量生成方法：基于全局语料库、结合上下文语境构建词向量，与此同时考虑词的共现情况，即单词与其上下文单词在特定的上下文窗口内共同出现的次数，根据与某一个单词的相关的概率之比学习词向量，实现将词汇转化为固定的长度向量，其中计算与某一个单词相关的概率之比的公式为：

所述P_ik表示词i的上下文中词k出现的概率，所述P(i|k)为P_ik的计算公式；所述P_jk表示词j的上下文中词k出现的概率,所述P(j|k)为P_jk的计算公式；

词性向量生成方法：对每一个句子处理的结果，利用自然语言处理NTLK库对每个词的词性进行标注，利用独热编码进行向量化；

词汇静态特征向量生成方法：对每一个句子的处理结果，提取每一个词汇的静态特征，所述静态特征包括对特殊字符、字母数字的统计特征，对词汇的静态特征进行编码，利用独热编码进行向量化；

字符特征向量生成方法：对每一个句子的处理结果，对每一个词汇利用一维卷积神经网络算法提取字符特征，以n为输入的最长字符数，不足n字符的输入数据用0补齐，超过n个字符的输入数据只保留前n字节，输出为每一个词汇的字符特征向量；

D.将步骤C中所得到的词汇的词向量、词性向量、词汇静态特征向量以及词汇的字符特征向量拼接获得合成向量，并将合成向量输入到双向长短期记忆神经网络，从而构建模型；

E.定义网络安全新词识别方法，结合基准网络安全词库、步骤D生成的模型以及阈值，判断输入的词汇是否属于网络安全新词。

2.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法，其对原始数据仓库处理的特征在于：对原始数据仓库中所有文本句子进行切词，移除非ASCII字符，但是在移除符号时不删除特殊字符，特殊字符指除英文字母和阿拉伯数字以外的字符，并对句子中的每一个词汇进行词形还原操作。

3.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法，其模型建立的具体步骤在于：

(1)将每一个词汇固定长度的词向量X₁、词汇静态特征向量X₂、词性向量X₃、字符特征向量X₄进行特征融合，得到合成向量；

(2)其中，所述特征融合的公式为W＝X₁||X₂||X₃||X₄，其中||为拼接符号；

(3)利用双向长短期记忆神经网络构建模型，输入是通过预处理后的合成向量。

4.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法，其特征在于：网络安全新词与一般新词有差别，它们没有明显的统计学特征，网络安全领域新词的判定依赖于语义、已有词库及词汇的流行度，新词判定的具体步骤包括：

(1)利用训练完成的深度学习模型，判断新的文本输入内容中的黑客用户/组织及黑客工具两种类型的词汇，若属于这两类则将词汇作为候选词，并交给新词判决器进行判断，若不属于则丢弃所述词汇；

(2)将模型判断的网络安全词汇与基准网络安全词库中的词汇进行比较，判断所述网络词汇是否在词库中；

(3)当候选词在词库中时，则为网络安全相关词汇，但不是新词；

(4)当候选词不在词库中时，计算该词出现的次数占同一讨论话题帖子下的总词数的比例，判断所述词汇的出现频率与预定阈值之间的大小关系；其中，所述频率计算公式如下

其中N(w)表示词汇的出现次数，N(a)表示文本域的总词数；

(5)当所述词汇的频率大于预定阈值时，利用谷歌趋势平台搜索该词的流行度，若该候选词在谷歌趋势中从词库建立所处时间前至今趋势一直比较稳定，则不可判断为新词；若该候选词在谷歌趋势中在已有词库的年限之前的趋势较为平缓并且在已有词库的年限之后具有大幅度的上升趋势或在谷歌趋势中没有足够的数据，可判断为新词；

(6)当所述词汇的频率低于预定阈值时，则不可判断为新词。