CN115587318A

CN115587318A - 一种基于神经网络的源码分类方法

Info

Publication number: CN115587318A
Application number: CN202211302051.0A
Authority: CN
Inventors: 孙雪凯; 刘春玲; 林键; 唐永鹤; 娄睿; 戚旭衍; 刘威; 董卫宇; 蒋烈辉; 井靖; 王瑞敏; 王焕伟; 何红旗; 刘铁铭; 刘乐; 王奕森
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-10

Abstract

本发明提供一种基于神经网络的源码分类方法。该方法包括：将待分类源码转换为AST；定义并初始化整个AST叶子节点对应的向量矩阵，记作

从AST中随机抽取n条路径{p₁,…,p_n}；针对抽取到的任一条路径p_i，可将其转换为二元组<x_s,x_e>；从value_vocab中分别查询到当前路径p_i上起始节点和末端节点的向量，进而得到当前路径p_i的向量c_i，记作：

c_i作为全连接神经网络中的一个神经元的输入，得到对应的输出

n条路径{p₁,…,p_n}对应的n个向量{c₁,…,c_n}输入到含有n个神经元的全连接神经网络后，得到n个输出

将所有的输出聚合为代码嵌入v；定义一个类别标签矩阵，记作

将代码嵌入v与tags_vocab中每一个训练函数标签的嵌入进行运算后得到代码嵌入v的预测分布。

Description

一种基于神经网络的源码分类方法

技术领域

本发明涉及代码分析技术领域，尤其涉及一种基于神经网络的源码分类方法。

背景技术

对代码进行分析研究具有很多的应用场景，例如代码抄袭检测，软件漏洞搜索等。现有的代码分析方法主要存在以下三种：

第一种代码分析方法：由于程序语言与自然语言有着天然的相似性，都是由一些单词组成且都能够被语法树表示，因此一些学者借鉴自然语言的一些技术来分析代码。例如，代码被表示为一个序列应用在漏洞检测、代码克隆以及代码分类任务中。尽管与自然语言有着一些共性，但代码本身也拥有一些独特的性质，如自定义的标识符，更强的结构特征等。仅仅利用自然语言的处理方法来处理代码难免会造成大量的信息丢失。

第二种代码分析方法：为了建立更加适合代码分析的算法模型，一些学者借助本身的专家领域知识，制订了一系列规则来对代码进行分析研究。但是该方法过于依赖专家领域知识的传统方法面临以下几个问题：(1)数据集较小时模型表现较好，但当数据集过于庞大时，规则的制订会变得更加复杂，难以适应海量且复杂的代码数据集。(2)依赖研究人员的专家知识来提取特征，提取的特征数目有限且当前任务不一定适用当前特征。(3)花费大量时间与精力制定的规则通常只针对当前任务，可迁移性差。

第三种代码分析方法：为了减少对专家领域知识的依赖，近年来许多学者致力于将深度学习应用在代码分析研究上。这些模型多是借助代码的控制流图或抽象语法树(abstract syntax tree，AST)来表示代码，通过对这些中间表示进行分析来提取代码的信息。其中，Alon等人提出的一种名为code2vec的方法，该方法的分析过程为：首先将代码转为对应的AST，然后将AST表示为一个路径集合，路径集合中的每条路径都可以用一个三元组来表示，通过神经网络并利用一个注意力机制可生成对应代码的嵌入。该方法相比于其他算法(如CNN和LSTM等)，具有结构简单，训练速度快的优点。但还是存在以下两方面问题：(1)针对中间的路径表示，算法仅根据组成路径的每一个字母进行一个哈希计算的叠加来作为当前路径的标识。这会导致两条基本相同的路径得到的标识完全不同，不但丢失了关键信息，也大大增加了训练模型的时间花销。(2)聚合路径时需要额外训练一个注意力参数，增加了模型复杂度。

发明内容

为了减少对专家领域知识的依赖，同时降低代码分类型的复杂度和训练时间，本发明提供一种基于神经网络的源码分类方法。

本发明提供的基于神经网络的源码分类方法，包括：

步骤1：将待分类源码转换为AST；

步骤2：定义并初始化整个AST对应的向量矩阵，记作

其中，X为AST中所有终端节点的个数；d为终端节点对应向量的维度；

步骤3：从AST中随机抽取n条路径{p₁，...，p_n}；针对抽取到的任一条路径p_i，将其转换为二元组<x_s，x_e>；其中，x_s为当前路径p_i上起始节点对应的值，x_e为当前路径p_i上末端节点对应的值；

步骤4：从value_vocab中分别查询到当前路径p_i上起始节点和末端节点的向量，进而得到当前路径p_i的向量c_i，记作：

其中，value_vocab_s表示起始节点的向量，value_vocab_e表示末端节点的向量；

步骤5：将抽取到的n条路径对应的n个向量分别输入至包含有n个神经元的全连接神经网络，得到对应的n个输出

将所有的输出聚合为代码嵌入v；

步骤6：定义类别标签矩阵，记作

其中，Y是训练集中所有训练函数标签的个数；

步骤7：将代码嵌入v与tags_vocab中每一个训练函数标签的嵌入进行运算后得到代码嵌入v的预测分布。

进一步地，步骤5中，针对向量c_i，全连接层的输出

其中，W表示学习权重矩阵，

进一步地，步骤5中，将所有的输出聚合为代码嵌入v，具体为：

n表示路径个数。

进一步地，在训练所述全连接神经网络时，采用交叉熵损失函数作为损失函数。

本发明的有益效果：

本发明的构思是将代码片段表示为代码向量，然后根据代码函数体来预测代码函数的功能。整个过程不需要任何专家领域的知识来参与模型的训练，只需要将预处理好的代码数据作为模型输入进行训练即可。

并且，本发明提出了一种更为简单的二元组表示方法来表示路径，避免使用哈希算法来为AST路径生成标识符，减少了模型训练所需的参数。并且，提出的神经网络模型不需要再额外训练一个注意力机制，使得模型结构更加简单。

附图说明

图1为本发明实施例提供的基于神经网络的源码分类方法的流程示意图；

图2为本发明实施例提供的全连接神经网络模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种基于神经网络的源码分类方法，包括以下步骤：

S101：将待分类源码转换为AST；

S102：定义并初始化整个AST对应的向量矩阵，记作

具体地，value_vocab的每一行元素代表一个终端节点对应的向量。||表示集合。训练时，可能有多个训练集，例如，有三个训练集时，若三个训练集的终端节点个数分别为x1,x2,x3，则|X|表示{x1,x2,x3}。终端节点是指没有孩子节点的节点，也称为叶子节点。在提取路径时，每个路径会有两个终端节点，起始点和结尾点，这两个点是没有孩子节点的。

S103：从AST中随机抽取n条路径{p₁,…,p_n}；针对抽取到的任一条路径p_i，将其转换为二元组<x_s，x_e>；其中，x_s为当前路径p_i上起始节点对应的值，x_e为当前路径p_i上末端节点对应的值；

S104：从value_vocab中分别查询到当前路径p_i上起始节点和末端节点的向量，进而得到当前路径p_i的向量c_i，记作：

S105：将抽取到的n条路径对应的n个向量分别输入至包含有n个神经元的全连接神经网络，得到对应的n个输出

将所有的输出聚合为代码嵌入v；

具体地，针对向量c_i，全连接层的输出

其中，W表示学习权重矩阵，

将所有的输出聚合为代码嵌入v，具体为：

n表示路径个数。

S106：定义类别标签矩阵，记作

其中，Y是训练集中所有训练函数标签的个数，在这里，d也为训练函数标签对应嵌入的维度；

具体地，tags_vocab的每一行元素代表一个训练函数标签的嵌入。可以采用tag_i表示tags_vocab中第i行的元素。

S107：将代码嵌入v与tags_vocab中每一个训练函数标签的嵌入进行运算后得到代码嵌入v的预测分布，即：

具体地，全连接神经网络模型的结构示意图如图2所示。在训练全连接神经网络模型时，采用交叉熵损失函数作为损失函数，形式如下：交叉熵损失函数的表达式如下：

其中，q为样本的预测分布，p为样本的真实分布，y_true表示样本的真实标签。也就是说，损失是q(y_true)的负对数，q(y_true)越倾向于1，损失越接近0。因此，最小化这种损失就相当于最x大化模型分配给真实标签y_true的可能性。

本发明实施例中，提出了一种更为简单的二元组表示方法来表示路径，避免使用哈希算法来为AST路径生成标识符，减少了模型训练所需的参数。并且，提出的神经网络模型不需要再额外训练一个注意力机制，使得模型结构更加简单。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。