CN110119355B

CN110119355B - 一种基于知识图谱向量化推理通用软件缺陷建模方法

Info

Publication number: CN110119355B
Application number: CN201910341308.5A
Authority: CN
Inventors: 李晓红; 宫喜
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2022-10-28
Anticipated expiration: 2039-04-25
Also published as: CN110119355A

Abstract

本发明公开了一种基于知识图谱向量化推理通用软件缺陷模型建立方法，步骤1、数据获取与预处理，具体操作为：从数据源获得所有关于缺陷的数据，该缺陷数据至少包括缺陷ID、缺陷描述、不同缺陷之间的关系以及缺陷造成的结果，对不同缺陷之间的关系和描述信息进行预处理；步骤2、学习基于描述的表示，构建基于描述的表示h_d；步骤3、学习基于结构的表示，构建基于描述的表示E_s；步骤4、通过基于结构的表示E_s和基于描述的表示E_d，构建最终的软件缺陷模型TransCat模型

步骤5、进行TransCat模型优化处理。与现有技术相比，本发明实现的TransCat模型可以捕获关于常见软件弱点的文本和结构性知识，从而有效地支持软件弱点上的各种推理任务。

Description

一种基于知识图谱向量化推理通用软件缺陷建模方法

技术领域

本发明软件安全技术领域，特别是涉及一种基于知识图谱向量化推理通用软件缺陷。

背景技术

安全对于一个软件产品来说是至关重要的，随着人们对电子产品的需求量不断增加、对实现复杂功能的软件产品的持续青睐，开发商为了满足市场需求不断地缩减开发周期，对软件开发之前的安全调研也未能顾全整个软件开发周期，如此，在进入软件开发阶段，开发人员按照设计所实现的软件便有极大的可能性带有缺陷，软件缺陷虽然不能直接对用户体验带来极大不适，也不会直接危害用户的信息与财产安全，但却隐藏着巨大的弊端，若是被黑客或者拥有特定技术的人发现软件所存在的缺陷，他们便可以对缺陷进行攻击，攻击成功缺陷便会变成漏洞，这必将会对使用者的个人信息造成泄露，更危险的是用户的银行卡信息被窃取，造成不必要的财产损失。因此，软件缺陷对于软件产品来说是致命的。

软件缺陷(Defect)，即为计算机软件或程序中存在的某种破坏正常运行能力的问题、错误，或者隐藏的功能缺陷。缺陷的存在会导致软件产品在某种程度上不能满足用户的需要。IEEE729-1983对缺陷有一个标准的定义：从产品内部看，缺陷是软件产品开发或维护过程中存在的错误、毛病等各种问题；从产品外部看，缺陷是系统所需要实现的某种功能的失效或违背。在软件开发生命周期的后期，修复检测到的软件错误的成本较高。那么准确有效的定义和描述软件缺陷，可以使软件缺陷得以快速修复，节约了软件测试项目的成本和资源，提高产品质量。

通用缺陷枚举(Common Weakness Enumeration)是一个软件社区项目，虽然CWE缺陷包含了很多的信息，比如缺陷描述、缺陷之间的关系、缺陷产生的结果等，但是CWE是超文本文件，不能支持先进的推理任务，比如关系预测、多标签预测、三元组的分类等任务，本发明设计的模型可以高效的完成这些任务，并且还可以结果zero-shot问题。

发明内容

本发明旨在提出一种基于知识图谱向量化推理通用软件缺陷建模方法，利用将知识图中基于描述的知识和基于结构的知识相结合、将CWE和CWE关系嵌入到低维向量空间中，实现了软件缺陷模型Transcat的构建。

本发明的一种基于知识图谱向量化推理通用软件缺陷建模方法，包括以下流程：

步骤1、数据获取与预处理，具体操作为：从数据源获得所有关于缺陷的数据，该缺陷数据至少包括缺陷ID、缺陷描述、不同缺陷之间的关系以及缺陷造成的结果，对不同缺陷之间的关系和描述信息进行预处理；

步骤2、学习基于描述的表示，具体操作为：通过大量的缺陷数据获得向量化模型，创建lookup字典包含所有缺陷的单词的向量化表示，构成了单词层次上的向量化，描述每一个句子的语义，获得句子层面的向量化，即对于具有n个单词的句子的向量化表示通过取n个单词的表示向量的平均值，从而构建基于描述的表示E_d，E_d是指实体的文本表示，表达式为：E_d＝||h_d+r-t_d||，其中，h_d、t_d分别表示头实体和尾实体的文本表示；

步骤3、学习基于结构的表示，具体操作为：针对一个给定的缺陷实体三元组(h,r,t)∈T，其中h,t∈V，h,t表示头部实体和尾部实体，V表示头部实体和尾部实体的集合；r∈R，r表示关系，R表示关系的集合；T表示所有三元组的集合，构建基于描述的表示E_s，E_s是指实体的结构表示，表达式为E_s＝||h_s+r-t_s||,而h_s和t_s分别表示头实体与尾实体的结构表示；

步骤4、通过基于结构的表示E_s和基于描述的表示E_d，构建最终的软件缺陷模型TransCat模型：

步骤5、进行TransCat模型优化处理，优化目标是最小化的基于奖励的损失函数，最小化的基于奖励的损失函数的表达式如下：

其中，γ表示奖励超参数，E(h,r,t)表示能源函数，T′表示T的负样本集合，即h′+r≠t′，h′和t′同样表示头部实体和尾部实体，并且T'的表达式如下：

T'＝{(h',r,t)|h'∈E}∪{(h,r,t')|t'∈E} (5)

利用Adam优化算法去优化TransCat模型的损失函数，具体的优化算法过程如下：

(1)首先对关系的集合R中的每一个关系r，进行uniform函数转换

确定其均匀分布的均匀标准在[-1,1]之间，本模型中维度k＝36；

(2)对关系所表示的向量进行归一化处理

||r||是向量的模运算；

(3)对于实体集E中的每一个实体e,对其进行uniform函数转换

确定其均匀分布的均匀标准在[-1,1]之间；

(4)对实体集合中的每一个集合e进行如下操作：

(5)对e进行归一化

(6)让实体e所表示的向量与基于描述所表示的向量连接

形成维度加倍的向量；

(7)从训练集中的三元组初始化一个mini batch T_batch←Φ，并与负样本的三元组做并操作T_batch←T_batch∪{((h,r,t),(h',r,t'))}，其中Φ表示训练集合；

(8)通过mini batch训练更新参数，进而提高向量化的表示；

(9)不断修改损失函数的值；

(10)最终得到TransCat模型(Knowledge graph embedding model)。

与现有技术相比，本发明实现的TransCat模型可以捕获关于常见软件弱点的文本和结构性知识，从而有效地支持软件弱点上的各种推理任务。

附图说明

图1为本发明的Word2Vec之Skip-Gram模型示意图；

图2为TransCat模型示意图；

图3为baseline模型示意图，(a)baseline1示意图、(b)baseline2示意图、(c)baseline3示意图；

图4为本发明的基于知识图谱向量化推理通用软件缺陷建模方法整体流程示意图。

具体实施方式

本发明的基于知识图谱向量化推理通用软件缺陷模型(TransCat模型)是基于TransE的连接模型，该模型从知识图谱中既学习基于结构的表示也学习基于描述的表示，通俗的讲，该模型不但可以获得结构信息也可以获得语义信息。通过TransE方法学习基于结构的表示，得到TransE模型的energy函数表示为：E_s＝||h_s+r-t_s||，其中下标s表示structure；对于向量化CWE中的缺陷描述，首先通过可以捕获语义和语法的wordembedding去学习单词的表示，而训练word embedding的语料库是爬取到的所有文本信息，包括CWE描述以及示例；然后使用连续的skip-gram模型进行词向量转化，得到的输出结果是一个单词向量的字典，这个字典包含CWE描述的每一个单词，之后便可以学习到单词的向量表示。而为了表示CWE描述还需要捕获句子的表示，采用每一个CWE描述的所有单词的向量化后的向量的平均向量作为每一个CWE句子的表示。它的energy函数表示为：E_d＝||h_d+r-t_d||，下标d表示description。基于结构的表示和基于描述的表示在利用平移的方法被训练得到TransCat的energy函数被表示为：

TransCat模型进行知识图谱向量化的目标也是为了提高向量化的效果，但是却在基于结构的基础上增加了基于描述的表示，更有利于向量化表示的效果。

经过TransCat模型的训练阶段，已经获得了TransCat模型，之后需要对模型的超参数进行调优，得到更加稳定的模型，之后利用该模型进行推理任务，如不同CWE之间的关系预测、知识图谱三元组的分类、以及对CWE中的Common consequence进行预测。

下面结合附图和实施例对本发明技术方案进行详细描述。

如图4所示为本发明的基于知识图谱向量化推理通用软件缺陷建模方法整体流程示意图。本发明的TransCat模型既考虑了实体结构信息也获得了实体描述的语义信息，可以更加准确的完成缺陷之间的推理任务。分别以三种基本方法即关系预测法、三元组分类法和结果预测法作对比实验，TransCat模型性能比这三种方法更好，训练TransCat模型用到的技术方案如下：

步骤1、数据获取与预处理，具体为：

通过数据爬取方法从数据源(https://cwe.mitre.org/)获得所有的(总共包括705个缺陷)缺陷描述数据，该缺陷描述数据至少包括缺陷的ID、描述、关系以及缺陷造成的结果；然后预处理不同缺陷之间的关系，将CWE缺陷之间的关系总结为四种：父子关系(parent-child)、先后关系(precede-follow)、兄弟关系(peerof)和语义关系(semantically related)，其中parent-child关系是由“ChildOf”和“ParentOf”两种不同的关系合并获得的，而precede-follow关系是由“CanPrecede”和“CanFollow”两种不同的关系合并获得的。对于CWE的描述信息也要进行预处理，具体为将特殊符号(如：*，#，@)以及数字去掉。

其中标识符(ID)用于每一个缺陷的辨别；描述是对每一个缺陷的文本描述；缺陷之间的关系总结为四类：父子关系、先后关系、兄弟关系以及语义关系；缺陷造成的结果是不同缺陷所造成的负面技术影响(共分为8个类别)。数据爬取方法主要包括WordEmbedding(词向量)、Word2Vec和Knowledge Graph(知识图谱)。

步骤2、学习基于描述的表示，具体为：

先训练一个向量化模型，这个过程使用到的工具是word2vec中向量化的模型即Skip-gram模型，用一个词语作为输入来预测它周围的上下文。假设存在一个w₁，w₂，w₃,…,w_T的词组序列，Skip-gram的目标函数是为了最大化在中心词w_t周边上下文w_t+j的概率，该目标函数使用下面表达式进行表示：

其中，T表示单词序列的长度，c表示单个方向的窗口大小，2c+1表示上下文窗口的大小，j用来确定目标单词的上下文单词位置。因此条件概率p(w_t+j|w_t)被定义如下：

可见Skip-gram是一个对称的模型，如果w_t为中心词时，w_k在其上下文窗口内，则w_t也必然在以w_k为中心词的同样大小的上下文窗口内。同时，Skip-gram中的每个词向量表征了上下文的分布。Skip-gram中的skip是指在一定上下文窗口内的词两两都会计算概率，就算它们之间隔着一些词，这样的好处是“白色汽车”和“白色的汽车”很容易被识别为相同的短语。前面提到的条件概率p(w_t+j|w_t)其实是一个多分类的逻辑回归，即softmax模型，对应的label是One-hot representation，只有当前词对应的位置为1，其他为0。

如图3所示，可以看出skip-gram预测概率P(w_i|w_t)，其中i用来表示当前单词的上下文单词，具体范围为：t-c≤i≤t+c且i≠t，c是决定上下文窗口大小的常数，c越大则需要考虑的pair(当前单词与一个上下文单词是一个pair)就越多，一般能够带来更准确的结果，但是训练时间也会增加。

现在用于向量化的工具已经确定，但是对缺陷的描述进行向量化，首先需要通过大量的数据来获得向量化模型，数据是步骤1中所有爬取到的文本信息，以此来创建的lookup字典包含了所有缺陷的单词的向量化表示，因此，每一个缺陷描述的单词都可以在字典中找到与之对应的向量化表示，这是单词层次上的向量化，本步骤的目的是描述每一个句子的语义，因此需要获得句子层面的向量化，采取的办法是：对于具有n个单词的句子的向量化表示通过取n个单词的表示向量的平均值；最后用E_d表示基于描述的表示。

步骤3、学习基于结构的表示：

学习基于结构的表示的目标是为了将CWE的所有实体和CWE实体间的关系编码到一个连续的低维向量空间中，采用了TransE模型。TransE是知识图谱向量化的一个基本模型也是本专利的基础模型，TransE将头部实体与尾部实体的关系解释为平移操作在一个低维的向量空间中。它的energy函数被写为E(h,r,t)＝||h+r-t||，表示尾部实体所表示的向量应该是最接近头部实体与r的向量和。TransE模型进行知识图谱向量化的目标是通过训练集中的三元组集合来最小化E，进而提高向量化表示的效果。

本步骤中，知识图谱向量化的实体维度与单词向量化的维度相同，缺陷之间的关系所表示的维度是前者的两倍。

对一个给定的CWE三元组(h,r,t)∈T，其中h,t∈V，h,t表示头部实体和尾部实体，V表示头部实体和尾部实体的集合；r∈R，r表示关系，R表示关系的集合；T表示所有三元组的集合。TransE的energy函数被定义如下：

E(h,r,t)＝||h+r-t|| (3)

这个模型的一般概念是被r标记的边引起的功能性函数关系对应于向量化的平移，即h+r≈t。几何解释是尾部矢量t应该是矢量h+r相加的最近邻。

步骤5、TransCat模型优化处理，优化目标是得到最小化的基于奖励的损失函数：最小化的基于奖励的损失函数的表达式如下：

其中，γ表示奖励超参数，E(h,r,t)表示能源函数，T'表示T的负样本集合，即h′+r≠t′，h′和t′同样表示头部实体和尾部实体。并且T'的表达式如下：

T'＝{(h',r,t)|h'∈E}∪{(h',r,t')|t'∈E} (5)

从公式(5)可以看出头部实体和尾部实体被随机的用另一个CWE实体替换，但不是同时被替换。公式(4)是一个经典的损失函数，它要求正样本的能源函数值与负样本的能源函数值之间的差距不应该超过参数γ。即，希望正样本分数越高越好，负样本分数越低越好，但二者得分之差最多到γ就足够了，差距增大并不会有任何奖励。

最后，利用Adam优化算法去优化TransCat模型的损失函数，使其向量化效果更好。具体的优化算法过程详细介绍如下：

(1)首先对关系的集合R中的每一个关系r，进行uniform函数转换

(2)对关系所表示的向量进行归一化处理

||r||是向量的模运算；

(3)对于实体集E中的每一个实体e,对其进行uniform函数转换

确定其均匀分布的均匀标准在[-1,1]之间；

(4)对实体集合中的每一个集合e进行如下操作：

(5)对e进行归一化

(6)让实体e所表示的向量与基于描述所表示的向量连接

形成维度加倍的向量；

(8)通过mini batch训练更新参数，进而提高向量化的表示；

(9)不断修改损失函数的值；

(10)最终得到TransCat模型(Knowledge graph embedding model)。

整个过程中4个超参数的优化问题，以关系预测任务作为调节超参数的标准，关系预测指的是对三元组中头部实体/关系/尾部实体去掉后以此用数据集中的实体来替换形成待评价的三元组，对构造出来的三元组使用损失函数进行计算相似度，以相似度来对所有替换进去的实体/关系进行排序，相似度越高排名越靠前，找到正确的实体/关系在所有三元组的排名，以正确的实体/关系排名进1％的比例(Hits@1(％))来评估参数，Hits@1(％)越高，性能越好。

四个超参数分别是embedding dimension(词向量的维度)、γsize(奖励超参数)、Batch size(批处理的大小)、the number of training iterations(训练的次数)。thenumber of training iterations参数对训练集的迭代次数调优，当迭代次数是150时，损失函数值很小，时间花费400秒，当迭代次数在增加时，损失函数的值基本不在减小，但是时间持续增加，因此选择迭代次数为150。其余几个参数在上述过程中已经有所提到，这里只列出调优效果表如表1所示：

表1

Batch Size	Hits@1(％)	γSize	Hits@1(％)	embedding dimension	Hits@1(％)
						16	0.853	2.0	0.811	32	0.832
32	0.824	5.0	0.853	64	0.853
						64	0.829	8.0	0.824	128	0.826

至此，超参数调优过程结束，结果也是显而易见。

下面通过三个实验来验证TransCat模型的性能，作为对比的方法分别是wordembedding+SVM(方法1)、TransE(only structure)(方法2)、TransE(structure+description)(方法3)。方法1仅提取语音信息，之后使用SVM分类器进行分类，因此这种方法只能进行关系预测；方法2是传统的TransE方法，仅仅提取CWE实体与CWE实体间关系的结构信息；方法3将结构信息和语义信息添加在一起是并列的关系，而本发明的模型是将其连接在一起形成新的向量。

对比试验1：CWE关系预测

评估模型好坏的依据按照Mean Rank和Hits的值。Mean Rank表示正确实体/关系平均排名，Hits表示正确实体/关系排名的比例，在这里采用排名进入1％来评判，即Hits@1(％)，结果如下：

表2

从表1中可以看出，与三种基线方法相比，本发明的TransCat在两种评估指标上都达到了最佳性能。本发明方法的Hits@1(％)分别比对比方法1，对比方法2和对比方法3分别高出7％，23％和9.1％。因为对比方法1是一个分类，而不是基于排序的方法，无法求得MeanRank，本发明在平均等级上分别胜过对比方法2和对比方法3，分别为0.391和0.132。

对比试验2：三元组的分类

对构成知识图谱的所有三元组进行分类，其实本质是一个二分类，即判断<头部实体，关系，尾部实体>是否正确。对比试验1并不适合此分类任务，所以实验结果如下展示：

表2

从表2中可以看出，本发明比方法2和方法3分别高出0.116和0.093。

对比试验2：Common Consequence Prediction

Common Consequence指的是缺陷被攻击之后所产生的负面的技术影响，总共包括8个类别，所以这个任务本质是一个多标签的分类任务，通过macro F1以及microF1这个两个标准来对实验结果进行评价，对比试验1仍然不适用，结果如下：

表3

从表3中可以看出，本发明的MicroF1比方法2和方法3分别高12.2％和3.9％。MacroF1也比方法2和方法3的方法优于12.9％和5％。

实验表明，TransCat模型可以捕获关于常见软件弱点的文本和结构性知识，从而有效地支持软件弱点上的各种推理任务。

Claims

1.一种基于知识图谱向量化推理通用软件缺陷建模方法，其特征在于，该方法包括以下流程：

步骤3、学习基于结构的表示，具体操作为：针对一个给定的缺陷实体三元组(h,r,t)∈T，其中h,t∈V，h,t表示头部实体和尾部实体，V表示头部实体和尾部实体的集合；r∈R，r表示关系，R表示关系的集合；T表示所有三元组的集合，构建基于描述的表示Es，Es是指实体的结构表示，表达式为E_s＝||h_s+r-t_s||,而h_s和t_s分别表示头实体与尾实体的结构表示；