CN108108184A

CN108108184A - 一种基于深度信念网络的源代码作者识别方法

Info

Publication number: CN108108184A
Application number: CN201711380042.2A
Authority: CN
Inventors: 张春霞; 王森; 武嘉玉; 王树良; 牛振东; 张佳籴; 黄达友; 张沛炎
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-03-07
Filing date: 2017-12-20
Publication date: 2018-06-01
Anticipated expiration: 2037-12-20
Also published as: CN108108184B

Abstract

本发明公开了一种基于深度信念网络的源代码作者识别方法，属于Web挖掘和信息抽取领域。本发明包括如下步骤：构建源代码数据集，对源代码数据进行预处理；基于连续n‑gram代码段模型提取源代码特征；基于训练源代码文件样本训练深度信念网络模型；利用经过训练的深度信念网络模型进行源代码文件的作者识别，输出源代码文件的作者识别结果。本发明将源代码作者识别问题转换为分类问题，通过深度信念网络识别源代码的作者身份，提高了作者身份识别的性能和效率，在信息检索、信息安全、计算机取证等领域具有广阔的应用前景。

Description

一种基于深度信念网络的源代码作者识别方法

技术领域

本发明涉及一种基于深度信念网络的源代码作者识别方法，属于Web挖掘和信息抽取领域。

背景技术

现有的源代码作者身份识别方法主要包括排序方法、统计分析方法、浅层结构机器学习分类方法，以及相似度度量方法。

基于排序方法的源代码作者识别包括基于信息检索的排序方法、基于作者画像的排序方法。基于信息检索的排序方法的核心思想是指利用信息检索技巧来进行源代码作者身份识别。首先，将源代码转换为运算符和关键词等字符串序列；其次，将字符串序列转换为n-gram序列；然后，对所有源代码构建索引；最后，检索作者未知的源代码，将排在检索结果前面的若干个源代码的作者作为该源代码的作者。基于作者画像的排序方法中，首先构建作者画像，由作者编写的源代码集合中若干个高频n-gram序列构成；然后，计算作者未知的源代码与每个作者画像中共同出现的n-gram序列的数目，将数目最大的作者画像的作者作为源代码的作者。

基于统计分析方法主要采用多组判别分析(Multiple Discriminant Analysis)和典型判别分析(Canonical Discriminant Analysis)来识别源代码作者身份。基于浅层结构机器学习分类方法是指主要采用支持向量机或贝叶斯等分类器来识别源代码作者身份。基于相似度度量方法是指通过计算作者未知的源代码与作者已知的源代码的相似度进行源代码作者身份识别。

目前采用深度学习进行源代码作者身份识别的研究工作较少。深度信念网络是深度学习领域的一种神经网络模型。由一个输入层、若干个隐藏层和一个输出层构成。隐藏层包括若干个受限玻尔兹曼机RBM(Restricted Boltzmann Machines)和一个反向转播层BP(Back Propagation)。每个受限玻尔兹曼机由一个可见层和一个隐藏层构成。可见层和隐藏层之间的神经元是全连接的，即可见层的任一神经元都和隐藏层的任一神经元相连。位于可见层或隐藏层内部的神经元是独立的，任意两个神经元之间都是互相不连接的。深度信念网络已经广泛应用于图像识别、语音识别和文本处理等领域。

发明内容

现有的源代码作者身份识别包括排序方法、统计分析方法、浅层结构机器学习分类方法，以及相似度度量方法。目前采用深度学习技术进行源代码作者身份识别的研究工作较少。

本发明的目的在于提出一种基于深度信念网络的源代码作者识别方法，该方法根据给定的候选作者及其编写的源代码文件集合，判别作者未知的源代码文件的作者身份。本方法的特点是：其一，将源代码作者身份识别问题转化为分类问题，源代码作者识别方法具有较强的鲁棒性；其二，通过一种深度学习模型即深度信念网络模型来识别源代码的作者身份，提高了作者身份识别的性能。

一种基于深度信念网络的源代码作者识别方法，包括如下步骤：

步骤1：由源代码数据获取模块构建源代码数据集，对源代码数据进行预处理；

从源代码网站采集源代码，并将其保存到计算机；对采集的源代码进行预处理，获取源代码作者及其编写的源代码文件集合；

步骤2：对于源代码文件，源代码特征提取模块采用基于连续n-gram代码段模型的方法提取源代码特征；

代码段是指源代码中被空白、空格或换行符隔开的字段串。代码段包括程序设计语言的关键词、运算符、标点符号、用户定义的标识符或它们的组合。用户定义的标识符包括变量名、属性名、函数名、方法名和类名；

连续n-gram代码段模型也称连续n元代码段模型。基于连续n-gram代码段模型的方法提取源代码特征是指从源代码中提取连续n个代码段的序列，n为正整数。例如，从源代码文件中获取的代码段序列为：s₁,s₂,s₃,…,s_m，m为整数，则提取的基于代码段型连续3-gram模型的特征为：

s₁,s₂,s₃；

s₂,s₃,s₄；

s₃,s₄,s₅；

……；

s_m-3,s_m-2,s_m-1；

s_m-2,s_m-1,s_m；

步骤3，基于训练源代码文件样本，由深度信念网络模型训练模块训练深度信念网络模型；

步骤3.1，构建训练源代码文件样本；

对源代码数据集中的p个作者a₁,a₂,…,a_p，p为正整数，从数据集中选取每个作者的源代码文件作为训练源代码文件样本。设选取的由作者a₁,a₂,…,a_p编写的源代码文件数量依次为m₁,m₂,…,m_p，m₁,m₂,…,m_p为正整数；

步骤3.2，构建训练源代码文件样本的特征向量；

对于源代码数据集的所有源代码文件，设提取的基于连续n-gram代码段模型的特征数目为N，N为正整数；对于每个源代码文件，构建特征向量，其特征向量由N个特征在该文件中的出现频率的倍数构成；

步骤3.3，构建深度信念网络模型的输入层的输入矩阵；

对训练源代码文件样本，构建MxN维矩阵A，把矩阵A输入深度信念网络模型的输入层。其中N为每个训练源代码文件的特征向量的维数，即步骤3.2中提取的特征数目；M为作者a₁,a₂,…,a_p的训练源代码文件数量之和，即M＝m₁+m₂+…+m_p，m₁,m₂,…,m_p依次为作者a₁,a₂,…,a_p的训练源代码文件数量；

步骤3.4，进入深度信念网络模型的隐藏层，通过隐藏层学习抽象度更高和区分性更强的源代码文件的特征向量；

深度信念网络模型包括输入层、隐藏层和输出层构成。隐藏层包括若干受限玻尔兹曼机和反向传播层；

对于第一个受限玻尔兹曼机，其可见层为步骤3.3构建的输入矩阵A。设深度信念网络模型包含w个受限玻尔兹曼机，对于第二个至第w个受限玻尔兹曼机，第k个受限玻尔兹曼机的隐藏层即为第k+1个受限玻尔兹曼机的可见层，其中，w为正整数，k＝1,…,w-1；

依次单独训练这w个受限玻尔兹曼机的参数，参数包括可见层任一单元与隐藏层任一单元的连接权重、可见层单元的阈值，以及隐藏层单元的阈值；

步骤3.5，进入深度信念网络模型的反向传播层，对w个受限玻尔兹曼机的参数进行微调；

首先，通过反向传播层和输出层获得目标预测标签与实际标签之间的误差。然后，把该误差从反向传播层向隐藏层传播，即向隐藏层的w个受限玻尔兹曼机传播，不断调整受限玻尔兹曼机的参数，使得误差尽可能最小；

步骤4，源代码作者身份识别模块采用基于深度信念网络模型的方法进行源代码作者识别：

步骤4.1，构建测试源代码文件样本的特征向量；

对于测试源代码文件样本，通过步骤3.2构建测试源代码文件样本的特征向量；

步骤4.2：利用经过训练的深度信念网络模型对测试源代码文件样本进行作者身份识别。也就是，通过深度信念网络模型的输出层，输出源代码文件的作者识别结果；

测试源代码文件样本的候选作者集合为训练源代码文件样本的作者集合{a₁,a₂,…,a_p}。将深度信念网络模型输出层的输出向量，转化为每个源代码文件的作者类别标签，也就是，识别出了每个源代码文件的作者；

至此，就完成了本方法的全部过程。

基于上述方法构建的一种基于深度信念网络的源代码作者识别系统，包括源代码数据获取模块、源代码特征提取模块、深度信念网络模型训练模块，以及源代码作者身份识别模块。源代码数据获取模块与源代码特征提取模块相连。源代码特征提取模块与深度信念网络模型训练模块相连。深度信念网络模型训练模块与源代码作者身份识别模块相连；

所述源代码数据获取模块用于构建源代码数据集，对源代码数据进行预处理；

所述源代码特征提取模块用于对所述源代码获取模块处理后的源代码文件进行特征提取；

所述深度信念网络模型训练模块用于对所述源代码特征提取模块提取的源代码特征来构建训练源代码文件样本的特征向量，进而训练深度信念网络模型；

所述源代码作者身份识别模块用于对所述深度信念网络模型训练模块训练的深度信念网络模型进行测试源代码文件样本的作者身份识别，输出源代码文件的作者类别标签。

有益效果

本发明的方法，针对现有源代码作者身份识别方法以排序方法、浅层结构机器学习分类方法、统计分析方法和相似度度量方法为主，采用深度学习方法的研究工作较少等问题，提供一种基于深度信念网络的源代码作者识别方法，能够提高源代码作者识别的性能。与现有技术相比，该方法具有如下特点：

(1)源代码选自源代码开源网站，本发明的源代码识别方法具有实时性。

(2)本发明将源代码作者识别问题转换为分类问题，通过深度信念网络识别源代码的作者身份。一方面，深度信念网络将源代码特征学习和作者身份识别融为一体，提高了源代码作者识别的效率。另一方面，对处理不同来源和不同编程语言的源代码具有较强的鲁棒性，能够动态地更新输入深度信念网络的源代码文件的特征向量，提高了源代码作者识别方法的灵活性。

(3)深度信念网络是一种非线性的深层网络结构，能够实现复杂函数逼近，获得抽象度更高和区分性更强的源代码特征，从而提高了源代码作者身份识别的性能。

(4)在信息检索、信息安全、计算机取证等领域具有广阔的应用前景。

附图说明

图1为本发明实施例一种源代码作者识别的流程示意图；

图2为本发明实施例一种源代码作者识别系统的组成结构示意图。

具体实施方式

下面结合实施例对本发明方法的优选实施方式进行详细说明。

实施例

本实施例叙述了采用本发明所述的一种基于深度信念网络的源代码作者识别方法的流程，如图1所示。

从图1可以看出，具体包括如下步骤：

步骤1)，由源代码数据获取模块构建源代码数据集，对源代码数据进行预处理；

从源代码网站采集源代码，并将其保存到本地计算机。其中，源代码网站可以是github网站，网址是https://github.com/；

对采集的源代码进行预处理，获取源代码作者及其编写的源代码文件集合；

步骤2)，对于源代码文件，源代码特征提取模块采用基于连续n-gram代码段模型的方法提取源代码特征；

s₁,s₂,s₃；

s₂,s₃,s₄；

s₃,s₄,s₅；

……；

s_m-3,s_m-2,s_m-1；

s_m-2,s_m-1,s_m；

例如，对于源代码“private static final int clockUpdateDelay＝10；”，提取的基于代码段型连续3-gram模型的特征为“private static final；static final int；final int clockUpdateDelay；int clockUpdateDelay＝；clockUpdateDelay＝10；”；

步骤3)，基于训练源代码文件样本，深度信念网络模型训练模块训练深度信念网络模型；

步骤3).1，构建训练源代码文件样本；

步骤3).2，构建训练源代码文件样本的特征向量；

对于源代码数据集的所有源代码文件，设提取的基于连续n-gram代码段模型的特征数目为N，N为正整数。对于每个源代码文件，构建特征向量，其特征向量由N个特征在该文件中的出现频率的倍数构成；

步骤3).3，构建深度信念网络模型的输入层的输入矩阵；

对训练源代码文件样本，构建MxN维矩阵A，把矩阵A输入深度信念网络模型的输入层。其中N为每个训练源代码文件的特征向量的维数，即步骤3).2中提取的特征数目；M为作者a₁,a₂,…,a_p的训练源代码文件数量之和，即M＝m₁+m₂+…+m_p，m₁,m₂,…,m_p依次为作者a₁,a₂,…,a_p的训练源代码文件数量；

步骤3).4，进入深度信念网络模型的隐藏层，通过隐藏层学习抽象度更高和区分性更强的源代码文件的特征向量；

对于第一个受限玻尔兹曼机，其可见层为步骤3).3构建的输入矩阵A。设深度信念网络模型包含w个受限玻尔兹曼机，对于第二个至第w个受限玻尔兹曼机，第k个受限玻尔兹曼机的隐藏层即为第k+1个受限玻尔兹曼机的可见层，其中，w为正整数，k＝1,…,w-1；

步骤3).5，进入深度信念网络模型的反向传播层，对w个受限玻尔兹曼机的参数进行微调；

步骤4)，源代码作者身份识别模块采用基于深度信念网络模型的方法进行源代码作者识别：

步骤4).1，构建测试源代码文件样本的特征向量；

对于测试源代码文件样本，通过步骤3).2构建测试源代码文件样本的特征向量；

步骤4).2：利用经过训练的深度信念网络模型对测试源代码文件样本进行作者身份识别。也就是，通过深度信念网络模型的输出层，输出源代码文件的作者识别结果；

至此，从步骤1)到步骤4)，完成了一种基于深度信念网络的源代码作者识别方法。

为说明本发明的源代码作者识别效果，本实验是在同等条件下，以相同的训练集和测试集分别采用两种方法进行比较。第一种方法是基于决策树的源代码作者识别方法，第二种方法是本发明的基于深度信念网络的源代码作者识别方法。采用的评测指标为精度(Accuracy)，计算公式为：

其中，N₁为被正确识别作者身份的源代码文件的数量，N₂为所有识别作者身份的源代码文件的数量。

源代码作者识别结果为：已有技术的基于决策树的源代码作者识别方法的精度约为91％，采用本发明方法的精度约为93％，通过实验表明了本发明提出的基于深度信念网络的源代码作者识别方法的有效性。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于深度信念网络的源代码作者识别方法，包括如下步骤：

步骤3：基于训练源代码文件样本，由深度信念网络训练模块训练深度信念网络模型；

步骤4：源代码作者身份识别模块采用基于深度信念网络模型的方法进行源代码作者识别。

所述步骤1中，包括：采集源代码将其保存到计算机，获取源代码作者及其编写的源代码文件集合。

所述步骤2中，包括：

连续n-gram代码段模型也称连续n元代码段模型；基于连续n-gram代码段模型的方法提取源代码特征是指从源代码文件中提取连续n个代码段的序列，n为正整数；代码段是指源代码中被空白、空格或换行符隔开的字段串；代码段包括程序设计语言的关键词、运算符、标点符号、用户定义的标识符或它们的组合。

所述步骤3中，包括：

步骤3.1，构建训练源代码文件样本；

对源代码数据集中的p个作者a₁,a₂,…,a_p，p为正整数，从源代码数据集中选取每个作者的源代码文件作为训练源代码文件样本；设选取的由作者a₁,a₂,…,a_p编写的源代码文件数量依次为m₁,m₂,…,m_p，m₁,m₂,…,m_p为正整数；

步骤3.2，构建训练源代码文件样本的特征向量；

步骤3.3，构建深度信念网络模型的输入层的输入矩阵；

深度信念网络模型包括输入层、隐藏层和输出层构成；隐藏层包括若干受限玻尔兹曼机和反向传播层；

步骤3.5，进入深度信念网络模型的反向传播层，对w个受限玻尔兹曼机的参数进行微调。

首先，通过反向传播层和输出层获得目标预测标签与实际标签之间的误差。然后，把该误差从反向传播层向隐藏层传播，即向隐藏层的w个受限玻尔兹曼机传播，不断调整受限玻尔兹曼机的参数，使得误差尽可能最小。

所述步骤4中，包括：

步骤4.1，构建测试源代码文件样本的特征向量；

步骤4.2：利用经过训练的深度信念网络模型对测试源代码文件样本进行作者身份识别。也就是，通过深度信念网络模型的输出层，输出源代码文件作者识别结果；

测试源代码文件样本的候选作者集合为训练源代码文件样本的作者集合{a₁,a₂,…,a_p}。将深度信念网络模型输出层的输出向量，转化为每个源代码文件的作者类别标签，也就是，识别出了每个源代码文件的作者。