CN112416358B

CN112416358B - 一种基于结构化词嵌入网络的智能合约代码缺陷检测方法

Info

Publication number: CN112416358B
Application number: CN202011310395.7A
Authority: CN
Inventors: 刘进; 沈晨凯; 余啸; 杨振; 崔晓晖; 黄勃; 张宽
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2022-04-29
Anticipated expiration: 2040-11-20
Also published as: CN112416358A

Abstract

本发明涉及一种基于结构化词嵌入网络的智能合约代码缺陷检测方法，具体是构建合约代码抽象语法树以及单词序列化模块，将收集到的合约代码转化为单词序列作为训练集。然后利用合约语法分析工具判定代码是否存在缺陷以及缺陷的数量，作为训练集的标签数据。再由单词序列训练得到词嵌入矩阵，将词嵌入矩阵作为循环神经网络的词嵌入层，构建GRU网络。使用训练集以及标签对网络进行训练。最后将新的智能合约代码经过单词序列化后输入到训练好的GRU网络中，输出缺陷判别的结果，是一种合约代码检测的方法。本发明使结构化的合约代码高效的序列化，提高代码缺陷检测的准确度以及自适应能力。

Description

一种基于结构化词嵌入网络的智能合约代码缺陷检测方法

技术领域

本发明属于代码缺陷检测技术领域，尤其涉及一种基于结构化词嵌入网络的智能合约代码缺陷检测方法。

背景技术

众所周知，代码缺陷是软件开发过程中无法避免的问题。从机器语言到高级语言的发展过程中，代码缺陷一直存在。这也成为了软件工程领域中研究的热点之一。因为代码缺陷的存在，软件应用在运行的过程中将会出现或大或小的问题。轻则导致程序出现异常，发出警告；重则直接导致程序崩溃，进而引发更为严重的实际问题。

软件缺陷预测是指，根据已存在的软件库、领域内容、代码的特征并结合相关的算法，来预测软件项目中是否存在潜在的代码缺陷。这里的算法可以是统计学算法、机器学习算法，或者是深度学习等算法。按照缺陷预测的粒度来分，可以将软件缺陷预测分为粗粒度缺陷预测和细粒度学缺陷预测，其中粗粒度的缺陷预测方法主要是预测文件(合约)、函数级别代码缺陷，细粒度缺陷预测则细分到代码语句级别的缺陷。本专利是关于粗粒度缺陷预测的研究。

从缺陷预测的方法上进行分类，可以分为规则型缺陷预测与算法型缺陷预测。规范型缺陷预测指的是借助传统的统计学，发掘软件代码结构特性，人为地定义代码规范或缺陷的模式，通过遍历源代码或者由源代码编译后的字节码、机器码文件，查找代码中潜在的缺陷。这种方式的缺陷预测对于规则设计人员有着很高的要求，不同的规则对于最终的预测结果有着极大的影响。同时，不同类型的代码可能需要设计出不同的规则来进行匹配，因此规则型缺陷预测的鲁棒性和泛化性都较差；算法型缺陷预测是指，人工定义软件相应的度量或者模型来自主学习相关的特征，利用度量、特征数据构建缺陷预测模型。算法型缺陷预测依赖于构建的模型的能力以及对数据的预处理效果。目前常用的算法为机器学习算法以及深度学习算法。算法型模型不需要人为地定义缺陷匹配规则，只需要让模型利用大量的数据集，从数据集中去学习到数据内部的特征，最终导出需要判定的结果。这种模型的泛化性能更好，能够适应于各种不同的数据类型和数据量，不再需要专家为单独的一类数据集设计一个专有的规则，模型的通用性明显提升。

从软件缺陷预测的各个研究阶段来看，最早的研究假定代码行数于缺陷发生的可能性和个数存在正相关。软件代码的规模越大、复杂度越高，则其中包含缺陷的可能性也越大。该度量方式比较简单，在实际使用过程中，很难精确地度量软件系统的复杂性。之后有学者提出圈复杂度(cyclomatic complexity)度量，代码的控制流的复杂度越高，那么含有缺陷的可能性也越大。再者又有学者提出了如软件科学度量法等其他更为复杂的度量方式。

随着机器学习算法的发展，基于常见的机器学习算法，如逻辑回归、决策树、支持向量机等，学者从源代码文件中提取出若干个特征，并根据该代码是否存在缺陷给定0\1的标签。接着根据数据集特征和标签，结合各种分类器进行训练。得到一个用于判别的机器学习分类器，对于一个新的代码，就能使用训练好的分类器来进行判定缺陷存在与否。

时至今日，除了早期传统的基于度量与机器学习的缺陷预测方法之外，各种深度学习算法也开始大放异彩。由于结构化的源代码不方便直接作为输入加载到深度学习模型中，通常的做法是将源文件转化为抽象语法树，从语法树中抽取变量声明、函数调用、语句返回等节点，得到单词序列。再根据单词序列进行词嵌入操作，得到训练完毕的词嵌入矩阵。基于该词嵌入矩阵，每一个源代码文件都可以转化为对应的词嵌入向量。与已知缺陷是否存在的源代码的词嵌入向量进行相似度比较，我们就可以判断新的代码是否存在缺陷。或者基于该词嵌入矩阵，构建一个卷积神经网络或者循环神经网络，添加若干个卷积层或者循环层、全连接层，最后经过一个逻辑回归分类器。通过数据集的训练，便可得到一个效果良好的分类器。

发明内容

本发明的目的在于针对目前各种方式的软件代码缺陷预测中，较少涉及到智能合约代码的缺陷预测这一现象，提供一种基于结构化词嵌入网络的缺陷预测方法。该方法首先构建合约解析模块，解析到代码的单词序列后，构建并训练词嵌入矩阵，使用语法分析工具判断代码是否存在缺陷，作为标签，结合词嵌入矩阵，构建并训练GRU网络，将新的合约代码序列化后输入网络中，实现缺陷的检测。

为了达到上述的目的，本发明的构思如下：收集特定的区块链或者以太坊的智能合约代码作为原始的数据集；将代码转化为抽象语法树，再遍历抽象语法树，获得单词序列，作为训练集；使用代码语法分析工具判断代码是否存在缺陷，作为标签；基于单词序列，构建并训练词嵌入矩阵；结合词嵌入矩阵，构建GRU网络并使用训练集和标签训练；最终将新的合约序列化后输入训练好的模型中，判定是否缺陷是否存在。

根据上述的发明思想，本发明采用下述技术方案：一种基于结构化词嵌入网络的智能合约代码缺陷检测方法，其特征在于，包括如下步骤：

步骤1：收集与以太坊、区块链相关的多个原始的智能合约代码；

步骤2：将原始的智能合约代码首先转化为XML抽象语法树，将XML抽象语法树以中序遍历的方式生成单词序列；

步骤3：通过人工标注的方式分析原始的智能合约代码中是否存在缺陷，并将标记结果作为GRU网络的标签，结合每个单词序列构建训练对数据集；

步骤4：将单词序列使用Word2Vec算法中的Skip-Gram模型构建智能合约代码的词嵌入矩阵；

步骤5：引入步骤4中所述词嵌入矩阵构建GRU网络模型，构建交叉熵损失模型，通过步骤3中所述训练队数据集进行优化训练，得到优化后GRU网络模型；

步骤6，对待预测的智能合约代码进行提取抽象语法树以及单词序列化操作，得到对应的单词序列；

步骤7，将优化后GRU网络模型的输出层进行调整，单词序列输入优化调整后GRU网络模型预测输出待预测的智能合约代码中是否存在缺陷；

作为优选，步骤2所述单词序列的定义如下，

data_i＝{token_i，1，token_i，2，token_i，3，...，token_i，L}，i∈[1，M]

其中，M表示原始的智能合约代码的数量，data_i表示第i个原始的智能合约代码对应的单词序列，token_i，j为第i个原始的智能合约代码对应的单词序列中的第j个单词，j∈[1，L]，L表示该单词序列中单词的数量；每一个单词为从源代码中提取出来的最小单位；

作为优选，步骤3所述通过人工标注的方式分析原始的智能合约代码中是否存在缺陷为：

若人工分析原始的智能合约代码中存在缺陷，则标签为1，否则标签为0；

所述GRU网络的标签，具体定义如下，

label_i∈}0，1}i∈[1，M]

其中，M表示原始的智能合约代码的数量，label_i表示第i个原始的智能合约代码的缺陷状态，label_i＝0表示缺陷不存在，label_i＝1表示缺陷存在；

将第i个原始的智能合约代码的缺陷状态转化成独热编码，即label_i＝[0，1]表示无缺陷，label_i＝[1，0]表示有缺陷；

步骤3所述结合单词序列构建训练对数据集为：

(data_i，label_i)

i∈[1，M]

作为优选，步骤4所述将单词序列使用Word2Vec算法中的Skip-Gram模型构建智能合约代码的词嵌入矩阵为：

步骤4.1，通过输入层、隐藏层、输出层构建三层神经网络；

步骤4.2，输入层接收的输入数据是单个目标单词label_i，i∈[1，M]

根据该单词在词汇表中的索引位置，将其转化为独热编码x；该编码向量x的尺寸是V×1，V表示代码词汇表的大小，并固定每个词的顺序；

每个词的独热编码向量是一个稀疏向量，只有该词所在位置的元素是1，其他位置的元素都为0；

步骤4.3，输入层通过第一权重矩阵

将独热编码转化成N维向量

输出至隐藏层；其中第一权重矩阵

的尺寸为V×N，N为词嵌入维度；

输入的独热编码经过矩阵

如下第一公式所示，

得到

为N×1隐藏层向量，是输入单词的词向量表示；

由于独热编码中只存在一个1，则上述计算过程得到的向量为权重矩阵

中的第k行向量。其中k表示，在对应独热编码中，x_k＝1；

步骤4.4，隐藏层通过第二权重矩阵，将步骤4.3中的向量

转化成2*m个概率向量Y_c，c∈[1，2*m]，输出至输出层；

其中第二权重矩阵

的个数为2*m，矩阵的尺寸均为N×V，且权重参数共享，其中，2*m表示由中间值需要去预测的上下文词的个数目标单词前面m个，目标单词后面m个；

N×1的隐藏层向量

与单个

进行计算后，可以得到词汇表中每个单词的分数u_j，计算方式如下第二公式所示：

是权重矩阵

的第j列；

与2*m个特征矩阵

计算后，最终得到2*m个V×1的向量U_c，c∈[1，2*m]，由于

是参数共享的，因此所有2*m个输出向量均相等，每个向量中的值即上述词汇表中每个单词w_j的分数u_j；

对于每一个向量U_c，c∈[1，2*m]，再做Softmax运算得到概率输出结果Y_c，c∈[1，2*m]，其是一个V×1向量，其中每个单词分数的概率，计算方式如下第三公式所示：

y_j是概率向量Y_c中第j个值，将第一公式、第二公式式代入第三公式，可得训练目标模型：

隐藏层得到2*m个相同的概率向量Y_c，输出到输出层；

步骤4.5，在步骤4.4中，输出层得到了2*m个相同的Softmax概率向量Y_c，每一个向量有一个对应的单词的独热编码；

Skip-Gram模型的训练目标是最大化公式训练目标模型，给定输入w_I下，2*m个真实输出值w_O，C的条件概率乘积；

其中，c∈[1，2*m]，对于每个预测单词token_c，均有

其中，j^*为正确输出单词的索引值；

对于2*m中的每一个单词的预测都是独立的事件，则总损失函数E可以定义如下，

其中，j^*为是词汇表中第c个真实输出单词的索引，c∈[1，2*m]；

步骤4.6，基于上述损失函数及梯度下降算法，对Skip-Gram进行参数优化，训练完成后，步骤4.3中的第一权重矩阵即

即可作为词嵌入矩阵；

作为优选，步骤5所述GRU网络由：输入层、词嵌入层、GRU层、全连接层、Softmax层、输出层依次串联级联构建；

所述输入层：通过M个单词序列构建训练样本，具体定义如下，

input_i＝{vec_i，1，vec_i，2，vec_i，3，...，vec_i，L}，i∈[1，M]

trans(x)＝[0，0，0，...，1，0.0]，index(1)＝x

其中，data_i是第i个单词序列，input_i是第i个单词序列对应的独热编码矩阵，大小为L×V，token_i，j为第i个原始的智能合约代码对应的单词序列中的第j个单词，vec_i，j为对应单词(token)的独热编码，通过trans(.)完成由单词到对应独热编码形式的转化，

L＝600是每个单词序列的长度，若单词序列的长度小于L＝600，则以零填充使得input_i的单词序列的长度达到L，M为训练集中原始的智能合约代码的数量，单个独热编码向量的长度为V，为词汇表数量；

经过输入层后，得到的大小为M×L×V的张量，输出到词嵌入层；

所述词嵌入层，引入步骤5所述的第一权重矩阵构建特征矩阵即

具体定义如下：

其中，

的大小为V×N，V为词汇表数量，N为词嵌入维度；

输入的批次训练样本中每个单词序列向量经过所述词嵌入层之后，将每个单词序列的独热编码转换为词嵌入表示，输出M×L×N的张量；

M为训练集中单词序列的数量，L为每个单词序列的长度，N为词嵌入维度；

所述的GRU层接收来自所述词嵌入层的输出；

GRU层由多个子GRU层串联而成，每个子GRU层的结构完全一致，第p子GRU层的定义如下，

第p子GRU层中存在多个时序隐藏层，并且时序数量与单词序列的固定长度一致，为L；

每个时序隐藏层的输入是单个单词的词嵌入表示，其大小为1×N；

第p子GRU层中个第q个时序隐藏层接收该输入以及第q-1个时序隐藏层的状态h_p，q-1后，经过运算将得到传递到第q+1时序隐藏层的状态h_p，q。同时，每个时序都对应一个输出结果o_p，q，p∈[1，P]，q∈[1，Q]；

第p个子GRU层中的相邻两个时序隐藏层的更新表达式如下：

其中，*是矩阵中对应坐标的元素相乘，q为GRU层中的时序序号数，时序总数为一个固定值Q。若一份单词序列的长度大于Q，则截取Q长度，若一份单词序列的长度小于Q，则在后续补零填充。h_p，q-1代表从第q-1时序隐藏层中传递下来的隐状态，h_p，q代表传递给第q+1时序隐藏层的隐状态，z_p，q是更新门，表达式如下：

其中，

和

为待训练的参数矩阵，σ(.)为sigmoid函数，x_p，q为第p个子GRU层中的第q个时序隐藏层的输入；

为当前时刻的隐藏层信息，其表达式如下：

其中，r_p，q是重置门，

均为参数矩阵。

对于第p个子GRU层的第q个时序隐藏层而言，输出结果表达式如下：

其中，

是参数矩阵。

GRU层接收的的输入张量尺寸为M×L×N，每一个时序的输入尺寸为1×N，单个子GRU层共L个时序隐藏层；

输入数据所有经过GRU层之后，输出最后一个时序的结果o_p，Q，传递给全连接层；

对于第p个子GRU中的第q个时序隐藏层，其输入为x_p，q，输出为一个中间输出结果o_p，q和中间隐状态h_p，q，隐状态只用于GRU循环层中的信息传递，最终输出的是最后一个时序的o_P，Q；

GRU中的每个时序对应子网络的神经元数量为G；经过所有GRU层后，输出的张量大小为M×G；

所述全连接层，接收来自GRU层的输出数据；

所述全连接层包括由连接层、Dropout层、激活层依次串联级联构成；

所述连接层的神经元数量为X；

所述Dropout层是按照一定比例，随机地使全连接层中的节点失活，失去传播和计算能力；

所述激活层的激活函数为ReLU函数；

ReLU函数的表达式如下：

ReLU(x)＝max(x，0)x∈[-∞，+∞]

其中，x为任意实数；

经过全连接层后，输出得到尺寸为M×X的张量；

所述Softmax层，接收来自全连接层的输出，Softmax层的神经元数量为B，即进行有无缺陷的二分类预测判别；

输入数据是尺寸为M×X的张量，经过Softmax层后，输出1×2的概率向量S，再经过激活函数之前，得到1×2向量V；

向量V经过激活函数得到概率向量S的公式如下，

其中，j表示分类下标，j∈[1，2]；

经过Softmax激活函数后，得到1×2的概率向量S，取其中较大值对应的标签：0或者1。

所述输出层，在训练中和实际使用中有所不同；

训练中的输出层，得到来自Softmax层的概率向量S_j，其尺寸为1×2，向量中的两个概率值分别代表缺陷存在和缺陷不存在的概率值，该概率向量中表示有缺陷即预测为正的概率值作为最终的输出与标签label进行损失值计算，并进行反向传播参数优化；

步骤5所述交叉熵损失模型为：

GRU网络的标签为步骤4中的判别结果。label_i＝0表示缺陷不存在，label_i＝1表示缺陷存在；

交叉熵损失的定义如下，

其中，M为训练集中单词序列的数量，label_i标识单词序列i的标签，有缺陷的label_i＝1，无缺陷的label_i＝0；p_i为第i个单词序列被预测为正(有缺陷)的概率；

步骤5通过步骤3中所述训练队数据集进行优化训练为：

通过Adam进行优化训练，优化参数为GRU层中

以及全连接层中参数矩阵，用于构建优化后GRU网络模型；

作为优选，步骤7所述将优化后GRU网络模型的输出层进行调整为：

优化后GRU网络模型的输出层得到来自Softmax层的概率向量，其尺寸为1×2，向量中的两个概率值分别代表缺陷存在和缺陷不存在的概率值，若有缺陷的概率值大于H，H∈(0，1)，则输出1，表示对应的源代码存在缺陷；若无缺陷的概率值大于H，则输出0，表示对应的源代码不存在缺陷。

本发明的一种基于结构化词嵌入网络的智能合约代码的缺陷检测的方法，与现有的技术相比较，具有如下突出特点和优点：

引入代码解析模块，将智能合约代码通过中间抽象语法树形式转化为单词序列，使结构化的合约代码高效的序列化；

对于原始的智能合约代码做了缺陷检测，涵盖了多种不同的可能缺陷，提高代码缺陷的检测准确度；

基于词嵌入矩阵，连接GRU网络，可以让网络模型自动地去学习单词序列中的文本特征，省去了人为的文本序列判别规则的设计，增强了自适应能力。

附图说明

图1：是本发明方法流程图。

图2：是智能合约代码示例。

图3：是智能合约代码转化为的单词序列。

图4：是智能合约代码缺陷判别结果。

图5：是词嵌入矩阵构建的Skip-Gram模型示意图。

图6：是基于循环神经网络的GRU网络。

具体实施方式

以下结合附图对本发明的实施例作进一步的说明。

下面结合图1至图6介绍本发明的具体实施方式为：

一种基于结构化词嵌入网络的智能合约代码的缺陷检测的方法和系统，其特征在于，包括如下步骤：

步骤1：在EtherScan(一款以太坊区块搜索和分析的分布式智能合约平台)上收集智能合约代码，总计22,000份合约，将其作为原始数据集。附图2为一段智能合约代码示例；

步骤2：将数据集中所有的原始智能合约代码首先转化为XML抽象语法树，将XML抽象语法树以中序遍历的方式生成单词序列；

对于每一个智能合约代码，根据ANTLR语法规则，将其转化为抽象语法树；

对于每一个抽象语法树，以中序的方式遍历，转化成对应的单词序列；

所述单词序列的定义如下，

其中，M＝22,000表示原始的智能合约代码的数量，data_i表示第i个原始的智能合约代码对应的单词序列，token_i，j为第i个原始的智能合约代码对应的单词序列中的第j个单词，j∈[1，L]，L＝600表示该单词序列中单词的数量，若单词序列数量不足L，则补零；若单词序列长度大于L，则截取。每一个单词为从源代码中提取出来的最小单位；

通过上述源代码转化到抽象语法树、抽象语法树转化到单词序列等两个步骤，将所有的合约代码转化成单词序列集，作为步骤6中GRU网络的训练集输入；

步骤3所述通过人工标注的方式分析原始的智能合约代码中是否存在缺陷为：

所述GRU网络的标签，具体定义如下，

label_i∈}0，1}i∈[1，M]

其中，M＝22,000表示原始的智能合约代码的数量，label_i表示第i个原始的智能合约代码的缺陷状态，label_i＝0表示缺陷不存在，label_i＝1表示缺陷存在；

步骤1中源代码由人工分析的结果如附图4所示：共包含7种缺陷类型，本合约中无任何缺陷。被分析的代码行占合约总代码行(包括空行、注释)的62％；

步骤3所述结合单词序列构建训练对数据集为：

(data_i，label_i)

i∈[1，M]

其中，M＝22,000表示训练集对的数量；

步骤4：将单词序列使用Word2Vec算法中的Skip-Gram模型构建智能合约代码的词嵌入矩阵，Skip-Gram模型如附图5所示；

步骤4所述将单词序列使用Word2Vec算法中的Skip-Gram模型构建智能合约代码的词嵌入矩阵为：

步骤4.1，通过输入层、隐藏层、输出层构建三层神经网络；

步骤4.2，输入层(附图5中Input Layer)接收的输入数据是单个目标单词label_i，i∈[1，M]，M＝22,000；

根据该单词在词汇表中的索引位置，将其转化为独热编码x(附图5中x)；该编码向量x的尺寸是V×1，V＝100,000表示代码词汇表的大小，并固定每个词的顺序；

步骤4.3，输入层通过第一权重矩阵

(附图5中

)，将独热编码转化成N维向量

(附图5中h)，输出至隐藏层；其中第一权重矩阵

的尺寸为V×N，V＝100,000为词汇表的大小，N＝150为词嵌入维度；

输入的独热编码经过矩阵

如下第一公式所示，

得到

为N×1隐藏层向量，是输入单词的词向量表示，N＝150为词嵌入维度；

中的第k行向量。其中k表示，在对应独热编码中，x_k＝1，k∈[1，V]；

步骤4.4，隐藏层(附图5中Hidden Layer)通过第二权重矩阵(附图5中

)，将步骤4.3中的向量

转化成2*m个概率向量Y_c，c∈[1，2*m]，输出至输出层(附图5中OutputLayer)；

其中第二权重矩阵

的个数为2*m，矩阵的尺寸均为N×V，且权重参数共享，其中，2*m＝6表示由中间值需要去预测的上下文词的个数，目标单词前面m(＝3)个，目标单词后面m(＝3)个；

N×1的隐藏层向量

与单个

是权重矩阵

的第j列。

与2*m个特征矩阵

计算后，最终得2*m个V×1的向量U_c，c∈[1，2*m]，由于

是参数共享的，因此所有2*m个输出向量均相等，每个向量中的值即上述词汇表中每个单词w_j的分数u_j，其中2*m为特征矩阵

个数；

对于每一个向量U_c，c∈[1，2*m]，再做Softmax运算得到概率输出结果Y_c(附图5中Y_c)，c∈[1，2*m]，其是一个V×1向量，其中每个单词分数的概率，计算方式如下第三公式所示：

隐藏层得到2*m个相同的概率向量Y_c，输出到输出层；

步骤4.5，在步骤4.4中，输出层得到了2*m个相同的Softmax概率向量Yc，每一个向量有一个对应的单词的独热编码；

其中，c∈[1，2*m]，对于每个预测单词token_c，均有

其中，j^*为正确输出单词的索引值；

对于2*m个单词的每个预测都是独立的事件，则总损失函数E可以定义如下，

其中，j^*为是词汇表中第c个真实输出单词的索引，c∈[1，2*m]，m＝3；

即可作为词嵌入矩阵；

步骤5：引入步骤4中所述词嵌入矩阵构建GRU网络模型，构建交叉熵损失模型，通过步骤3中所述训练队数据集进行优化训练，得到优化后GRU网络模型，GRU网络模型如附图6所示；

步骤5所述GRU网络由：输入层、词嵌入层、GRU层、全连接层、Softmax层、输出层依次串联级联构建，模型结构如附图6所示；

所述输入层(附图6中Input)：通过22,000个单词序列构建训练样本，具体定义如下，

input_i＝{vec_i，1，vec_i，2，vec_i，3，...，vec_i，L}，i∈[1，M]

trans(x)＝[0，0，0，...，1，0.0]，index(1)＝x

L＝600是每个单词序列的长度，若单词序列的长度小于L，则以零填充使得input_i的单词序列的长度达到L，M＝22,000为训练集中原始的智能合约代码的数量，V＝100,000为单个独热编码向量的长度，也为词汇表数量；

所述词嵌入层(附图6中Embedding)，引入步骤5所述的第一权重矩阵构建特征矩阵即

具体定义如下：

其中，

的大小为V×N，V＝100,000为词汇表数量，N＝150为词嵌入维度；

M＝22,000为训练集中单词序列的数量，L＝600为每个单词序列的长度，N＝150为词嵌入维度；

所述的GRU层接收来自所述词嵌入层的输出；

GRU层(附图6中GRU)由多个子GRU层串联而成，每个子GRU层的结构完全一致，第p子GRU层的定义如下，

第p子GRU层中存在多个时序隐藏层，并且时序数量与单词序列的固定长度一致，为L＝600；

第p子GRU层中个第q个时序隐藏层接收该输入以及第q-1个时序隐藏层的状态h_p，q-1后，经过运算将得到传递到第q+1时序隐藏层的状态h_p，q。同时，每个时序都对应一个输出结果o_p，q，p∈[1，P]，q∈[1，Q]，P＝2为子GRU层的数量，Q＝600为单个子GRU层的时序隐藏层数量；

第p个子GRU层中的相邻两个时序隐藏层的更新表达式如下：

其中，*是矩阵中对应坐标的元素相乘，q为GRU层中的时序序号数，时序总数为一个固定值Q＝600。若一份单词序列的长度大于Q，则截取Q长度，若一份单词序列的长度小于Q，则在后续补零填充。h_p，q-1代表从第q-1时序隐藏层中传递下来的隐状态，h_p，q代表传递给第q+1时序隐藏层的隐状态，z_p，q是更新门，表达式如下：

其中，

和

为当前时刻的隐藏层信息，其表达式如下：

其中，r_p，q是重置门，

均为参数矩阵。

其中，

是参数矩阵。

GRU层接收的的输入张量尺寸为M×Q×N，每一个时序的输入尺寸为1×N，单个子GRU层共Q个时序隐藏层；

GRU中的每个时序对应子网络的神经元数量为G＝128；经过所有GRU层后，输出的张量大小为M×G；

所述全连接层(附图6中Fully Connected)，接收来自GRU层的输出数据；

所述连接层的神经元数量为X＝64；

所述激活层的激活函数为ReLU函数；

ReLU函数的表达式如下：

ReLU(x)＝max(x，0)x∈[-∞，+∞]

其中，x为任意实数；

经过全连接层后，输出得到尺寸为M×X的张量；

所述Softmax层(附图6中Softmax)，接收来自全连接层的输出，Softmax层的神经元数量为2，即进行有无缺陷的二分类预测判别；

向量V经过激活函数得到概率向量S的公式如下，

其中，j表示分类下标，j∈[1，2]；

所述输出层，在训练中和实际使用中有所不同；

步骤5所述交叉熵损失模型为：

交叉熵损失的定义如下，

其中，M＝22,000为训练集中单词序列的数量，label_i标识单词序列i的标签，有缺陷的label_i＝1，无缺陷的label_i＝0；p_i为第i个单词序列被预测为正(有缺陷)的概率；

步骤5通过步骤3中所述训练队数据集进行优化训练为：

通过Adam进行优化训练，优化参数为GRU层中

以及全连接层中参数矩阵，用于构建优化后GRU网络模型；

步骤7所述将优化后GRU网络模型的输出层进行调整为：

优化后GRU网络模型的输出层得到来自Softmax层的概率向量，其尺寸为1×2，向量中的两个概率值分别代表缺陷存在和缺陷不存在的概率值，若有缺陷的概率值大于H＝0.5，则输出1，表示对应的源代码存在缺陷；若无缺陷的概率值大于H，则输出0，表示对应的源代码不存在缺陷。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求所定义的范围。

Claims

1.一种基于结构化词嵌入网络的智能合约代码缺陷检测方法，其特征在于，包括以下步骤：

步骤5：引入步骤4中所述词嵌入矩阵构建GRU网络模型，构建交叉熵损失模型，通过步骤3中所述训练对数据集进行优化训练，得到优化后GRU网络模型；

步骤2所述单词序列的定义如下，

所述GRU网络的标签，具体定义如下，

label_i∈{0，1}i∈[1，M]

步骤3所述结合每个单词序列构建训练对数据集为：

(data_i，label_i)

i∈[1，M]。

2.根据权利要求1所述的基于结构化词嵌入网络的智能合约代码缺陷检测方法，其特征在于：

步骤4.1，通过输入层、隐藏层、输出层构建三层神经网络；

根据该单词在词汇表中的索引位置，将其转化为独热编码x；独热编码x的尺寸是V×1，V表示代码词汇表的大小，并固定每个词的顺序；

步骤4.3，输入层通过第一权重矩阵

将独热编码转化成N维向量

输出至隐藏层；其中第一权重矩阵

的尺寸为V×N，N为词嵌入维度；

输入的独热编码经过矩阵

如下第一公式所示，

得到

为N×1隐藏层向量，是输入单词的词向量表示；

由于独热编码中只存在一个1，则上述计算过程得到的向量h为权重矩阵

中的第k行向量；其中k表示，在对应独热编码中，x_k＝1；

步骤4.4，隐藏层通过第二权重矩阵，将步骤4.3中的向量

转化成2*m个概率向量Y_c，c∈[1，2*m]，输出至输出层；

其中第二权重矩阵

N×1的隐藏层向量

与单个

是权重矩阵

的第j列；

与2*m个特征矩阵

计算后，最终得到2*m个V×1的向量U_c，c∈[1，2*m]，由于

y_j是概率向量Y_c中第j个值，将第一公式、第二公式代入第三公式，可得训练目标模型：

隐藏层得到2*m个相同的概率向量Y_c，输出到输出层；

其中，c∈[1，2*m]，对于每个预测单词token_c，均有

其中，j^*为正确输出单词的索引值；

其中，

为是词汇表中第c个真实输出单词的索引，c∈[1，2*m]；

即可作为词嵌入矩阵。

3.根据权利要求1所述的基于结构化词嵌入网络的智能合约代码缺陷检测方法，其特征在于：

步骤5所述GRU网络由：输入层、词嵌入层、GRU层、全连接层、Softmax层、输出层依次串联级联构建；

input_i＝{vec_i，1，vec_i，2，vec_i，3，...，vec_i，L}，i∈[1，M]

trans(x)＝[0，0，0，...，1，0.0]，index(1)＝x

其中，data_i是第i个单词序列，input_i是第i个单词序列对应的独热编码矩阵，大小为L×V，token_i，j为第i个原始的智能合约代码对应的单词序列中的第j个单词，vec_i，j为对应单词token的独热编码，通过trans(.)完成由单词到对应独热编码形式的转化，

所述词嵌入层，引入步骤5第一权重矩阵构建特征矩阵即

具体定义如下：

其中，

的大小为V×N，V为词汇表数量，N为词嵌入维度；

所述的GRU层接收来自所述词嵌入层的输出；

第p子GRU层中个第q个时序隐藏层接收该输入以及第q-1个时序隐藏层的状态h_p，q-1后，经过运算将得到传递到第q+1时序隐藏层的状态h_p，q；同时，每个时序都对应一个输出结果o_p，q，p∈[1，P]，q∈[1，Q]；

第p个子GRU层中的相邻两个时序隐藏层的更新表达式如下：

其中，*是矩阵中对应坐标的元素相乘，q为GRU层中的时序序号数，时序总数为一个固定值Q；若一份单词序列的长度大于Q，则截取Q长度，若一份单词序列的长度小于Q，则在后续补零填充；h_p，q-1代表从第q-1时序隐藏层中传递下来的隐状态，h_p，q代表传递给第q+1时序隐藏层的隐状态，z_p，q是更新门，表达式如下：