CN114579761A

CN114579761A - 信息安全知识实体关系连接预测方法、系统及介质

Info

Publication number: CN114579761A
Application number: CN202210203550.8A
Authority: CN
Inventors: 马颖华; 陈秀真; 裘炜程; 赖柏希; 于海洋; 马进; 段圣雄
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-06-03

Abstract

本发明提供一种信息安全知识实体关系连接预测方法、系统及介质，包括数据处理模块：构成图数据，输入图卷积网络表示模块；对实体描述文本数据进行预处理，将输出作为Word2Vec表示模块的输入；图卷积网络表示模块：接收图数据，训练TextGCN模型，并生成文本的图卷积网络表示向量；Word2Vec表示模块：训练Word2Vec模型，并生成文本的Word2Vec表示向量；孪生网络表示模块：训练孪生网络模型，并生成孪生网络表示向量；连接判断模块：根据目标实体对各自的孪生网络表示向量，计算两者的欧氏距离，若距离小于阈值，则判断为有连接。本发明能够准确判断实体间是否有连接，确保补足数据的正确性、减少人工分析成本。

Description

信息安全知识实体关系连接预测方法、系统及介质

技术领域

本发明涉及计算机网络安全技术领域，具体地，涉及一种基于图卷积和词向量孪生网络的信息安全知识实体关系连接预测方法和系统，为基于网络安全知识图谱的知识推理应用提供数据基础，如攻击组织画像、攻击场景构建、内网威胁分析、漏洞成因分析、APT攻击检测等，尤其涉及一种信息安全知识实体关系连接预测方法、系统及介质。

背景技术

知识图谱是客观世界中实体、概念和事件及其之间联系的集合，用图的结构化形式呈现数据关系，便于从数据中提取知识，为数据融合、数据分析、数据共享等智能应用赋能。网络安全知识图谱是以网络安全本体论为基础构建的知识图谱，其本体论主要包括以下概念所表达的实体以及实体和实体之间存在的各种关系：CVE(通用漏洞披露)，表示已发现的信息安全漏洞；CWE(常见缺陷列表)，表示导致漏洞产生的脆弱点；CAPEC(通用攻击模式列表)，表示攻击漏洞时使用的攻击方法；ATT&CK(攻击战术和技术通用知识库)，表示攻击时的抽象战术和技术。网络安全知识图谱的构建有利于多种网络安全下游任务的完成：

1、攻击组织画像：攻击组织画像包括对攻击者和攻击行为的建模，目的是了解攻击意图并对攻击进行预测，知识图谱可提供目标攻击者和行为的属性、关系等，从而对攻击组织的攻击习惯、攻击能力等有更深入的理解；

2、攻击场景构建：利用知识图谱的图结构，可视化分析攻击目标、攻击过程和攻击结果；抽取攻击者特征、构建描述攻击者行为的属性图，关联分析后获取更丰富的安全语义；

3、内网威胁分析：知识图谱可以对目标客体(如目标资产)和攻击模式(如CAPEC和ATT&CK等)进行关系构建和关联分析，从而弥补目前内网检测组件关联性不够的问题，可减少安全运营的人力投入；

4、漏洞成因分析：CVE仅表征软硬件已暴露的漏洞，但并未明确引起该漏洞的成因；CWE列举了导致漏洞的脆弱点，两者间关系的确定有利于安全人员及时分析和修复漏洞；

5、APT攻击检测：APT(高级可持续威胁)攻击由多步骤、多目标、高持续性的攻击组成，知识图谱有利于关联这些攻击，并将低层次的攻击对应到高层的战术技术矩阵和杀伤链模型，进而识别APT攻击。

在各种信息安全知识库(例如MITRE组织的CVE、CWE、CAPEC和ATT&CK数据库)中有多类概念的实体之间的关联关系，例如CVE和CWE之间的对应关系、CAPEC和ATT&CK之间的对应关系等，但在图谱构建和知识推理中存在的问题是：由于安全知识新增和更新，知识实体之间的关系维护变得工作量越来越大，知识实体之间关系数据维护的滞后，导致对知识关系的应用上存在很多盲点，短缺的连接非常不利于知识推理。例如，部分CVE没有对应的CWE，导致部分漏洞发生时无法确定其利用的脆弱点；CAPEC与ATT&CK技术之间的连接少，该路径是分析底层攻击行为和高层抽象攻击战术技术的关键路径。

由于信息安全知识中存在对漏洞或者技术等的文本描述信息，这些信息可以借助自然语言处理的方法，自动预测这些知识实体之间是否存在关系。例如自然语言处理中有文本相似度的计算，因此通过分析图谱中两实体的描述信息，根据两者的文本相似度判断两者是否存在关系。自然语言处理技术在深度学习的快速发展下日趋成熟，用大数据训练的语言模型(如BERT)在文本相似度分析任务上取得了良好的效果。

但信息安全知识中实体之间的关系存在不同的类型，此外实体之间的关系并非简单取决于相似度，实体之间的关系是实体各种概念的抽象，例如不同的分类层次、或者技术抽象类型等，不同的关系数据不可以共享使用，因此造成了信息安全知识中实体关系的预测的一些难点，例如有些实体的关系数量少，用于预测的样本量不足；还有的知识实体总体上文本量不大，使得很多算法难以应用，且预测精度不高；专有名词较多，词切分以及词向量训练需要有针对性的处理过程等问题。

发明内容

针对现有技术中的缺陷，本发明提供一种信息安全知识实体关系连接预测方法、系统及介质。

根据本发明提供的一种信息安全知识实体关系连接预测方法、系统及介质，所述方案如下：

第一方面，提供了一种信息安全知识实体关系连接预测系统，所述系统包括：

数据处理模块：将信息安全知识中的文本数据进行词的抽取处理，采集信息安全知识的全部文本描述数据并进行数据预处理；将词存在于实体的文本描述数据之中的关系，作为实体节点以及文本词汇节点之间的关系，构成图数据；输出图数据，该图数据作为图卷积网络表示模块的输入；输出预处理后的实体描述文本数据，该实体描述文本数据作为Word2Vec表示模块的输入；

图卷积网络表示模块：接收图数据，训练TextGCN模型，并生成文本的图卷积网络表示向量；

Word2Vec表示模块：接收预处理后的实体描述文本数据，训练Word2Vec模型，并生成文本的Word2Vec表示向量；

连接判断模块：根据目标实体对各自的孪生网络表示向量，计算两者的欧氏距离，若距离小于阈值，则判断为有连接。

优选地，所述数据处理模块包括：将单词和句子作为图节点、PMI特征和TF-IDF特征作为图的边，构成图数据，输入图卷积网络表示模块；

对实体描述文本数据进行预处理包括：根据空格分词、停用词删除及低频词删除。

优选地，所述图卷积网络表示模块具体包括：接收图数据，按照7:2:1划分训练集、验证集和测试集，训练TextGCN模型，并生成文本的图卷积网络表示向量。

优选地，所述Word2Vec表示模块中，训练Word2Vec模型使用Skip-gram算法。

优选地，所述孪生网络表示模块具体包括：合并图卷积网络表示向量和Word2Vec表示向量，按照7:2:1划分训练集、验证集和测试集，训练孪生网络模型，并生成孪生网络表示向量。

第二方面，提供了一种信息安全知识实体关系连接预测方法，所述方法包括：

步骤S1：采集信息安全知识库中的实体英语描述文本，保存数据库中实体间的现有连接；

步骤S2：根据空格分词、删除停用词、剔除出现次数小于阈值的低频词，生成信息安全语料库；

步骤S3：训练Word2Vec模型，生成每个单词的词向量；

步骤S4：给定两类概念及概念对应的所有实体，将所有词和句作为图的节点、词存在于句之中的关系作为图的边，构成图数据；

步骤S5：步骤S1中现有连接作为正样本，不存在连接的实体对作为非正样本，从非正样本中随机选取与正样本等量的负样本，划分训练集、测试集和验证集；

步骤S6：将训练集输入图卷积网络，每个训练轮次计算正负样本的间隔损失函数，并更新网络参数；

步骤S7：输出每个节点的向量，保存句节点的向量作为每个实体文本的图卷积网络表示向量；

步骤S8：根据步骤S3生成的词向量，计算每个实体文本的Word2Vec表示向量；

步骤S9：对每个实体文本，将步骤S7和步骤S8生成的图卷积网络表示向量和Word2Vec表示向量合并，划分训练集、测试集和验证集；

步骤S10：将训练集输入孪生网络，每个训练轮次计算样本对的对比损失函数，并使用Adam优化器更新网络参数；

步骤S11：将测试集样本对输入孪生网络，输出两样本的向量作为孪生网络表示向量。

优选地，所述步骤S3具体包括：使用Python的gensim库、选择Skip-gram算法训练Word2Vec模型，生成每个单词的词向量。

优选地，所述步骤S5包括：从非正样本中随机选取与正样本等量的负样本，按照7:2:1的比例划分训练集、测试集和验证集。

优选地，所述步骤S9包括：对每个实体文本，将图卷积网络表示向量和Word2Vec表示向量合并，按照7:2:1的比例划分训练集、测试集和验证集。

第三方面，提供了一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现所述方法中的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明在现有网络安全实体数据中，能够准确判断实体间是否有连接；在现有的CAPEC和ATT&CK关系中，采集两类实体各500个、已有关系对400个，本系统在该数据集上的预测准确率为87.7％，其中88.1％的有关系实体对被正确分类、86.4％的负样本被正确分类；在现有的CVE和CWE关系中，采集CVE实体约150000个、CWE实体922个、已有关系对300000个，本系统可达到89.8％的预测准确率，91.9％的有关系实体对被正确分类、88.9％的无关系实体对被正确分类；

2、本发明系统在小样本预测的情况下(如CAPEC和ATT&CK数据)大幅提升检测准确率，现有方法(如BERT)在该数据集上准确率为78.5％、在正样本数缩减为2‰的CVE和CWE数据上准确率为75％，而本系统在小样本数据集上仍可达到87％以上的准确率；

3、本发明的高预测准确率减少了人工判断的成本；使用图神经网络并在训练时随机选取负样本，保证系统的泛化性、能够发现新的连接；模型的训练均在CPU上完成，对计算和存储的要求低于目前的语言模型。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为基于图卷积和词向量孪生网络的信息安全实体知识补全系统示意图

图2为基于图卷积和词向量孪生网络的信息安全实体知识补全系统流程图；

图3为Word2Vec表示向量生成方法示意图；

图4为Word2Vec Skip-gram网络结构图；

图5为图卷积网络表示向量生成方法示意图；

图6为图卷积网络结构图；

图7为孪生网络表示向量生成方法示意图；

图8为孪生网络结构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种信息安全知识实体关系连接预测系统，由文本数据处理模块、图卷积网络表示模块、Word2Vec表示模块、孪生网络表示模块和连接判断模块组成，根据连接判断模块的结果将新连接补充到网络安全知识图谱中。本发明的系统以实体文本描述信息为原始输入，经过图卷积网络和孪生网络的表示学习，对两实体间是否存在特定的连接做出预测，并将存在且置信度高的连接加入知识图谱。参照图1所示，该系统具体包括：

数据处理模块：信息安全知识中的实体大都具有自然语言的文本描述数据。本模块中将文本数据进行词的抽取等处理，采集信息安全知识的全部文本描述数据并进行数据预处理。本模块还将词存在于实体的文本描述数据之中的关系，作为实体节点以及文本词汇节点之间的关系，构成图数据。本模块输出图数据，该数据作为图卷积网络表示模块的输入；本模块输出预处理后的实体描述文本数据，该数据作为Word2Vec表示模块的输入。

本模块对实体描述文本数据进行预处理，包括：根据空格分词、停用词删除、低频词删除，将输出作为Word2Vec表示模块的输入；将单词和句子作为图节点、PMI特征和TF-IDF特征作为图的边，构成图数据，输入图卷积网络表示模块。

图卷积网络表示模块：接收图数据，按照7:2:1划分训练集、验证集和测试集，训练TextGCN模型，并生成文本的图卷积网络表示向量。

Word2Vec表示模块：接收预处理后的实体描述文本数据，使用Skip-gram算法训练Word2Vec模型，并生成文本的Word2Vec表示向量。

孪生网络表示模块：合并图卷积网络表示向量和Word2Vec表示向量，按照7:2:1划分训练集、验证集和测试集，训练孪生网络模型，并生成孪生网络表示向量。

本发明还提供了一种信息安全知识实体关系连接预测方法，参照图2所示，包括：

步骤S1：采集信息安全知识库中的实体英语描述文本，保存数据库中实体间的现有连接。

步骤S2：根据空格分词、删除停用词、剔除出现次数小于阈值的低频词，生成信息安全语料库。

步骤S3：使用Python的gensim库、选择Skip-gram算法训练Word2Vec模型，生成每个单词的词向量。

步骤S4：给定两类概念及概念对应的所有实体，将所有词和句作为图的节点，词与词之间的边权重为PMI(逐点互信息)特征，词与句之间的边权重为TF-IDF(词频-逆文本频率指数)特征，从而构成图数据。

步骤S5：步骤S1中现有连接作为正样本，不存在连接的实体对作为非正样本，从非正样本中随机选取与正样本等量的负样本，按照7:2:1的比例划分训练集、测试集和验证集。

步骤S6：将训练集输入图卷积网络，每个训练轮次计算正负样本的间隔损失函数，并更新网络参数。

步骤S7：输出每个节点的向量，保存句节点的向量作为每个实体文本的图卷积网络表示向量。

步骤S8：根据步骤S3生成的词向量，计算每个实体文本的Word2Vec表示向量。

步骤S9：对每个实体文本，将步骤S7和步骤S8生成的图卷积网络表示向量和Word2Vec表示向量合并，按照7:2:1的比例划分训练集、测试集和验证集。

步骤S10：将训练集输入孪生网络，每个训练轮次计算样本对的对比损失函数，并使用Adam优化器更新网络参数。

接下来，对本发明进行更为具体的说明。

本发明实施例提供的一种信息安全知识实体关系连接预测系统，由文本数据处理模块、图卷积网络表示模块、Word2Vec表示模块、孪生网络表示模块和连接判断模块组成，根据连接判断模块的结果将新连接补充到网络安全知识图谱中。本发明的系统以现有的CVE、CWE、CAPEC、ATT&CK技术的实体描述信息为原始输入，经过图卷积网络和孪生网络的表示学习，输出CVE和CWE或CAPEC和ATT&CK实体间是否存在连接，存在且置信度高的连接加入知识图谱。该系统如图1所示，由以下模块组成，包括：

数据处理模块：对CVE、CWE、CAPEC、ATT&CK技术的实体描述文本数据预处理，包括：根据空格分词、停用词删除、低频词删除，该模块输出直接作为Word2Vec表示模块输入；将单词和句子作为图节点、PMI特征和TF-IDF特征作为图的边，构成图数据，输入图卷积网络表示模块。

图卷积网络表示模块：接收图数据，按照7:2:1划分训练集、验证集和测试集，根据间隔损失函数、使用Adam优化器训练TextGCN模型，并生成文本的图卷积网络表示向量。

Word2Vec表示模块：接收文本数据，使用Python的gensim库、使用Skip-gram算法训练Word2Vec模型，并生成文本的Word2Vec表示向量。

孪生网络表示模块：合并图卷积网络表示向量和Word2Vec表示向量，按照7:2:1划分训练集、验证集和测试集，使用Adam优化器训练孪生网络模型，并生成孪生网络表示向量。

参照图3所示，首先从数据库中收集CVE、CWE、CAPEC和ATT&CK技术的所有实体文本描述。数据处理包括根据空格分词、删除停用词、删除非英语和数字的特殊符号、删除出现频次小于5的低频词，其中停用词使用自然语言处理工具包NLTK中的英语停用词。经过数据处理后四种概念(CVE、CWE、CAPEC和ATT&CK技术)的所有实体描述组成信息安全实体描述语料库，保存为txt文件，格式为每行一个实体描述。使用Python的gensim库训练Word2Vec模型，选择Skip-gram算法，模型输出为100维的词向量。图4显示了Word2Vec的Skip-gram网络结构图，其原理为根据中心词Xj预测其周围的n-1个单词Y1～Yn-1。训练完毕后，输入一个单词，模型会输出对应的词向量。对每一个实体，其Word2Vec表示向量为描述中所有词向量的均值，记实体描述中第i个单词对应的Word2Vec词向量为

描述中有n个单词，实体描述的表示向量为S_v：

参照图5所示，数据源、数据处理流程与Word2Vec表示向量生成方法流程相同。经过数据处理后目标概念对(CVE与CWE、或CAPEC与ATT&CK)的所有实体描述组成描述语料库，保存为txt文件，格式为每行一个实体描述，即{实体编号+实体英语描述}。对所有描述，句子和单词作为图中的句节点和词节点。TF-IDF(词频-逆文本频率指数)用于评估单词对于文档或语料库的重要程度。TF表示单词在某文档中出现的次数，IDF表征单词在所有文档中出现的次数，该单词在某文档中出现次数越多、该单词出现在语料库中的次数越少，其表征某文档的能力越强。单词t_i对文档d_j的TF-IDF计算公式为：

其中，i,j分别表示第i个单词和第j个文档；k表示第k个单词；n_k,j表示第k个单词在第j个文档中出现的频次；D表示文档总数。

计算句节点与词节点之间的TF-IDF，作为两者间边的权重。PMI(逐点互信息)在文本处理中用于计算两个词语之间的关联程度，即两个词在指定窗口内共同出现的频率，p(x,y)表示词x和y共同出现的频率，p(x)表示词x的出现频率，计算公式为：

计算词节点与词节点之间的PMI，作为两者间边的权重。根据节点和边的关系构造邻接矩阵，对节点使用独热编码构造特征矩阵，n个节点对应的特征矩阵为维数n*n的单位矩阵。邻接矩阵和特征矩阵输入图卷积神经网络。如图6所示，展示了图卷积神经网络图，图中D节点表示句子、W节点表示单词，黑色节点表示在图卷积层中某节点被激活并与其邻居节点卷积。网络由两层图卷积层构成，第一层接收特征矩阵，输出200维向量；第二层接收200维向量，输出100维向量，作为模型最后的表示向量。第l层图卷积层的前馈计算公式为：

其中，A为邻接矩阵与单位矩阵的和，D为A的度矩阵，H^(l)为第l层的输出矩阵，W^(l)为第l层的权重向量，relu函数即max(0,x)，第l+1层的输出可由第l层的输出、第l层的权重向量和邻接矩阵计算得到。网络训练时将训练集输入网络，根据间隔损失函数计算样本误差：

其中，T表示正样本、T′表示负样本，S(v1,v2)表示正样本距离，S(v1′,v2′)表示负样本距离。正样本指数据库中已有连接的实体对，实体对的距离为两实体表示向量的欧氏距离；负样本生成方法为随机替换正样本实体对中的一个实体，且替换后不在正样本集合中。计算损失函数后，用Adam优化器更新模型参数。训练后得到所有实体的向量，作为各实体的图卷积网络表示向量。

参照图7所示，抽取两目标实体的Word2Vec表示向量和图神经网络表示向量，直接合并成200维向量，分别输入孪生网络。

参照图8所示，展示了孪生网络结构图。孪生网络由两个相同的模型组成，单个模型由两层全连接层组成，维数分别为100维和50维；训练过程中两个模型参数共享。训练时将训练集输入网络，正负样本采集方法与图卷积网络相同。根据对比损失函数计算样本误差：

其中，Y表示样本对是否有关系的标签、Dw指样本对两向量的欧式距离、N表示正负样本总数。计算损失函数后，用Adam优化器更新模型参数。在测试阶段，输入目标实体对的Word2Vec表示向量和图神经网络表示向量，各输出50维孪生网络句向量表示。

训练孪生网络时记录最终正样本的平均欧氏距离，连接判断模块的阈值取为该平均欧式距离的两倍。对需要判断是否存在连接的实体对，根据孪生网络表示向量，计算两者的欧氏距离，若小于阈值，则判断为有连接，并加入知识图谱。

本发明实施例提供了一种信息安全知识实体关系连接预测方法、系统及介质，通过图的处理建立网络安全知识图谱中实体描述的图表达，根据实体之间已建设好的关系建立实体文本描述和关系之间的模型，根据实体文本描述补充实体间的可能连接、完成知识补足，为基于网络安全知识图谱的知识推理应用，如攻击组织画像、攻击场景构建、内网威胁分析、漏洞成因分析、APT攻击检测等提供数据基础，并确保补足数据的正确性、减少人工分析成本。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种信息安全知识实体关系连接预测系统，其特征在于，包括：

孪生网络表示模块：合并图卷积网络表示向量和Word2Vec表示向量，训练孪生网络模型，并生成孪生网络表示向量；

2.根据权利要求1所述的信息安全知识实体关系连接预测系统，其特征在于，所述数据处理模块包括：将单词和句子作为图节点、PMI特征和TF-IDF特征作为图的边，构成图数据，输入图卷积网络表示模块；

3.根据权利要求1所述的信息安全知识实体关系连接预测系统，其特征在于，所述图卷积网络表示模块具体包括：接收图数据，按照7:2:1划分训练集、验证集和测试集，训练TextGCN模型，并生成文本的图卷积网络表示向量。

4.根据权利要求1所述的信息安全知识实体关系连接预测系统，其特征在于，所述Word2Vec表示模块中，训练Word2Vec模型使用Skip-gram算法。

5.根据权利要求1所述的信息安全知识实体关系连接预测系统，其特征在于，所述孪生网络表示模块具体包括：合并图卷积网络表示向量和Word2Vec表示向量，按照7:2:1划分训练集、验证集和测试集，训练孪生网络模型，并生成孪生网络表示向量。

6.一种信息安全知识实体关系连接预测方法，其特征在于，包括：

步骤S3：训练Word2Vec模型，生成每个单词的词向量；

7.根据权利要求6所述的信息安全知识实体关系连接预测方法，其特征在于，所述步骤S3具体包括：使用Python的gensim库、选择Skip-gram算法训练Word2Vec模型，生成每个单词的词向量。

8.根据权利要求6所述的信息安全知识实体关系连接预测方法，其特征在于，所述步骤S5包括：从非正样本中随机选取与正样本等量的负样本，按照7:2:1的比例划分训练集、测试集和验证集。

9.根据权利要求6所述的信息安全知识实体关系连接预测方法，其特征在于，所述步骤S9包括：对每个实体文本，将图卷积网络表示向量和Word2Vec表示向量合并，按照7:2:1的比例划分训练集、测试集和验证集。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求6至9中任一项所述的方法的步骤。