CN116933106B

CN116933106B - 基于无监督聚类的代码分块方法、存储介质和装置

Info

Publication number: CN116933106B
Application number: CN202310892391.1A
Authority: CN
Inventors: 杨永全; 管佩琪; 魏志强
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2024-01-26
Anticipated expiration: 2043-07-20
Also published as: CN116933106A

Abstract

本发明涉及一种基于无监督聚类的代码分块方法、存储介质和装置，属于代码分块领域，所述方法首先将源代码抽象为抽象语法树，再将抽象语法树平铺得到的文本，使用文本训练词向量模型，得到抽象语法树中每个节点的词向量，接下来以词向量作为输入进行DBSCAN聚类，最后将DBSCAN聚类获得的聚类中心作为SOM算法竞争层神经元、聚类中心个数作为聚类个数即分块个数，由此实现代码分块。本发明还提供运行所述方法的装置和计算机可读存储介质，本发明方法能够实现小样本无监督聚类进而实现代码分块任务，其分块结果的稳定性和精确度也明显高于传统代码分块方法。

Description

基于无监督聚类的代码分块方法、存储介质和装置

技术领域

本发明属于代码分块领域，具体的涉及一种基于无监督聚类的代码分块方法、存储介质和装置。

背景技术

随着计算机技术的不断发展，编程语言也逐渐变的复杂，采用不同编程语言编写的程序数量正在以爆炸式的速度增长。当前编程语言种类繁多，大规模程序代码量巨大，导致代码的后期维护、改进、分析等代码处理方法面临巨大挑战。代码分块是将一段较长的代码拆分为更小的、逻辑独立的代码片段，从而达到将复杂代码分而治之的处理要求和目的。这种技术可以应用在代码漏洞分析、代码翻译、代码注释自动补齐、代码语义理解、代码质量检测等方面。

传统的代码分块方法，是按照关键字或者代码的结构进行分块，例如遇到for关键字，则将其划分为一个循环体。这种代码分块方法必须针对每一种编程语言的语法进行手动适配，若某些项目采用多种开发语言，某些开发语言未进行人工适配，则该语言无法完成分块，从而导致对项目代码进行分块时不稳定，进而影响后续的代码分析与处理功能。同样的，若某一种语言的关键字或代码结构发生变化(因语言版本升级等原因)，则传统的根据关键字分块的方法准确度也会快速降低。采用自动化方法，从大量的已有代码中训练一个模型，实现代码的自动分块，是需要解决的一个问题。为了解决该问题，可以使用无监督聚类的方法，对代码的抽象语法树(AST，Abstract Syntax Tree)节点进行分类，从而达到代码分块的目的。

面对每种代码语言的字符与结构特征有限，现有的无监督聚类方法大多依赖于大规模的数据集训，对样本数量有很高的要求，而代码的抽象语法树节点个数，是典型的小样本数据集，导致传统的无监督聚类算法，例如自组织映射(Self-organizing Maps，SOM)算法，在应用于代码分块时，由于样本数量太少导致模型收敛速度慢或者无法收敛，进而导致代码分块稳定性和准确性较低。对SOM的初始权值赋值方法进行改进，以适应小样本无监督聚类学习，是一种可行的方案

发明内容

本发明要解决的技术问题在于提供一种基于无监督聚类的代码分块方法、存储介质和装置，所述方法实现小样本无监督聚类进而实现代码分块任务。它由具有噪声的基于密度的聚类方法(Density-Based Spatial Clustering of Applications withNoise，DBSCAN)聚类方法和SOM聚类方法组成。该算法分为两个阶段:首先使用DBSCAN聚类方法确定SOM算法的初始权值，代替原有的随机赋值方法，然后在第二阶段使用SOM作为无监督聚类方法完成聚类任务。该方法在代码分块任务上的运行时间、不稳定数据点率和内部误差方面都明显优于传统的SOM算法。

本发明是通过如下技术方案来实现的：

一种基于无监督聚类的代码分块方法，所述方法首先将提取源代码的抽象语法树，再将抽象语法树平铺得到的文本，使用文本训练词向量模型，得到抽象语法树中每个节点的词向量，用来表示每个节点的特征，接下来以词向量作为输入进行DBSCAN聚类，最后将DBSCAN聚类获得的聚类中心作为SOM算法竞争层神经元、聚类中心个数作为聚类个数即分块个数。

进一步，通过数据降维法将高维数据映射到竞争层初始化神经元权值，通过DBSCAN聚类算法确定出N×M个聚类中心，以此作为SOM算法初始权重值。

进一步，在SOM算法中，输入神经元与输出神经元直接相连，每个连接对应一个权重值；使用欧氏距离，计算每个输出神经元的输入向量和输入向量之间的距离；距离最小的输出神经元被宣布为获胜者；然后，使用邻域函数最小化神经元自身与其邻域之间的总距离。

进一步，聚类个数先初始化为与初始样本数目m相关的一个较大数值，将聚类个数初始化为然后结合DBSCAN聚类获得神经元权重值，通过SOM算法进行聚类，将N×M初始化为获胜过的神经元的个数；在SOM算法中，对/>通过化整处理进行修正。

进一步，将聚类后的抽象语法树节点与源代码进行对应，使用抽象语法树节点的分类表示代码的分块结果。

本发明还提供一种基于无监督聚类的代码分块装置，所述装置能够运行所述基于无监督聚类的代码分块方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适用于由处理器加载并执行所述基于无监督聚类的代码分块方法。

本发明与现有技术相比的有益效果：本发明利用DBSCAN聚类结果初始化SOM聚类的方法，DBSCAN聚类结果代替SOM聚类中竞争层中神经元收敛过程，降低SOM聚类收敛所需的迭代次数，显著改善代码分块过程中小样本代码聚类时的收敛慢甚至不收敛问题，其分块结果的稳定性和精确度也明显高于传统代码分块方法。

附图说明

图1为随机初始化权重每迭代50次的竞争层神经元图；

图2为本发明方法每迭代50次的竞争层神经元图。

具体实施方式

下面通过实施例来对本发明的技术方案做进一步解释，但本发明的保护范围不受实施例任何形式上的限制。

实施例1：一种基于无监督聚类的代码分块方法，所述方法首先将源代码抽象为抽象语法树，再将抽象语法树平铺得到的文本，使用文本训练词向量模型，得到抽象语法树中每个节点的词向量，接下来以词向量作为输入进行DBSCAN聚类，最后将DBSCAN聚类获得的聚类中心作为SOM算法竞争层神经元、聚类中心个数作为聚类个数即分块个数，由此实现代码分块。具体步骤如下：

(1)提取源代码的抽象语法树：抽象语法树是程序源代码的抽象语法结构的树状表示，树上的每个节点都表示源代码中的一种结构。通过抽象语法树对程序源代码进行分析，是程序代码自动生成、代码转换、代码翻译的重要手段。对抽象语法树中的节点进行特征提取，是利用程序源代码抽象语法树进行后续代码处理的核心技术之一，基于抽象语法树的神经网络模型可以更好地表示源代码。

将代码抽象为抽象语法树，AST由三种类型的节点组成：1)占位符节点；2)应用编程接口(Application Programming Interface，API)节点；3)语法节点。占位符节点不是函数的实际组件，但它们将函数组件链接在一起以形成树。所有AST都有占位符节点，例如“params”表示其叶节点是函数参数，“stmnts”表示其叶是各种类型的语句。API节点是指函数返回值和函数参数的类型。它们也可以是变量声明和函数调用。语法节点是包含控制流元素和运算符的语法元素。运算符(例如“+”、“-”或“＝”)将保持不变。

(2)将抽象语法树节点抽取出来平铺得到的文本，使用大量抽象语法树平铺文本训练词向量模型，得到抽象语法树中每个节点的词向量，这样就得到了最终的表示抽象语法树节点的特征向量。

以抽象语法树特征向量作为输入进行DBSCAN聚类；由于每种编程语言的抽象语法树节点个数与结构特征有限，现有的无监督聚类方法大多依赖于大规模的数据集训练，而在小样本数据条件下很难收敛，针对该问题，提出了一种基于DBSCAN聚类的SOM改进算法实现小样本无监督聚类进而实现词向量聚类。

DBSCAN聚类算法是最常用的聚类算法之一，其特点是不需要事先知道要形成的簇类的数量。DBSCAN聚类簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类，属于无监督学习。基于DBSCAN聚类的SOM算法是一个两阶段算法，它是SOM聚类和DBSCAN聚类中的中心初始化方法的结合。SOM方法的性能对随机分配的初始权重敏感。而且在大规模应用中，随机分配的初始值使它的速度非常慢。为了降低SOM的时间复杂度，本实施例提出用DBSCAN聚类代替随机过程来确定初始权值。在这种方法中，DBSCAN聚类中心被指定为SOM权重值；因此，SOM将需要更少的迭代。

DBSCAN聚类的基本思想是把具有足够高密度的区域划分为簇。通过DBSCAN聚类找到目标个数的簇及簇的中心点，设集合包含所有初始数据集A＝{x₁,x₂,...,x_m}、聚类簇距离度量函数d_min以及聚类簇个数N×M；

其中，dist(x,z)为x和z的欧式距离。

DBSCAN聚类部分：

输入：包含n个对象的数据库，半径e，最少数目MinPts；

输出：所有生成的簇，达到密度要求。

①Repeat；

②从数据库中抽出一个未处理的点；

③if抽出的点是核心点THEN找出所有从该点密度相连的对象，形成一个簇；

④else抽出的点是边缘点(非核心对象)，跳出本次循环，寻找下一个点；

⑤until所有的点都被处理。

(3)将DBSCAN聚类获得的聚类中心作为SOM算法竞争层神经元、聚类中心个数作为聚类个数即分块个数。SOM算法是一个初始值敏感的算法，因此初始值的确定十分重要。SOM算法使得输入的点与其竞争层神经元都建立关联，这些神经元对所有属性值都有权重值。在SOM算法中，输入神经元与输出神经元直接相连，每个连接对应一个权重值。在SOM初始化的过程中，每个神经元与一个和输入向量(x_i＝x_i1,x_i2,...,x_in)具有相同维数(n)的随机权重向量(w_i＝w_i1,w_i2,...,w_in)相关联。使用欧氏距离，计算每个输出神经元的输入向量和输入向量之间的距离。距离最小的输出神经元被宣布为获胜者。然后，使用邻域函数最小化神经元自身与其邻域之间的总距离。

SOM算法作为一个初始值敏感的算法，除了输出层神经元初始权重的初始化，输出层神经元个数，即聚类个数的确定也对聚类结果有很大影响。

本实施例中，将聚类个数先初始化为与初始样本数目m相关的一个较大数值，由于初始样本数目作为训练数据一般数量较大，因此将聚类个数初始化为然后结合DBSCAN聚类获得神经元权重值，然后通过SOM算法进行聚类，在此过程中，由于初始化的神经元数目远大于正确的神经元数目，因此总存在失效的输出层神经元，即该神经元永不获胜。当SOM算法结束时，获胜过的神经元个数远小于初始的聚类个数值/>将N×M初始化为获胜过的神经元的个数。在SOM算法中，由于输出层是根据N×M的输出平面，因此还要对通过化整处理进行修正。

如果随机地对DBSCAN聚类初始化方法得到的权值进行定位，则正确的神经元不可能具有正确的权值，SOM算法也不一定成功，必须确定最合适的方法来定位这些初始权重值。即使得到了权重值，如果随机的输入也不可以。因此DBSCAN聚类得到结果，输入SOM，其顺序也非常重要，因为获胜神经元应该有最大的权重值。如果把小的权重值分给它，那DBSCAN聚类的结果将失效。这里使用数据降维法(Dimensionality Reduction Method，DRM)将DBSCAN聚类结果映射到SOM算法的二维竞争层，进而初始化神经元权值，由此，通过DBSCAN聚类算法确定出N×M个聚类中心，以此作为SOM算法初始权重值。

DRM通过利用数据做平移、旋转、翻转等操作，数据点的距离是不变的这一特性来对原始数据进行操作。它将原始空间中样本之间的欧式距离在低维空间得以保持。降维后，保持距离不变，即保持了样本的相对空间关系不变。DRM计算简单，保留了数据在原始空间的相对关系，有较好地可视化效果。

DRM部分：

输入：距离矩阵D∈R(向量空间)，其元素dist_ij，为样本x_i到x_j的距离；低维空间维数d＝2；

①计算：

②计算矩阵B：

③对矩阵B做特征值分析；

④取2个最大特征值所构成的对角矩阵A，取对角矩阵相应的特征向量矩阵V；

输出：矩阵AV^1/2∈R^2m，每行是一个样本的低维坐标。

SOM算法部分：

初始化：按照上述DRM初始化SOM竞争层神经元初始权值；

①对输入向量X和权值W做归一化处理；

②

③计算输入数据与权值向量的欧几里得距离，距离最小的神经元赢得竞争；

④更新权值:对获胜的神经元拓扑邻域内的神经元进行更新,并对学习后的权值ω重新归一化；

ω(t+1)＝ω(t)+η(t,n)*(x-ω(t))，

η(t,n)＝η(t)*e^-n；

其中，η(t,n):η为学习率是关于训练时间t和与获胜神经元的拓扑距离n的函数；

⑤更新学习速率η及拓扑邻域N，N随时间增大距离变小；

⑥判断是否收敛。如果学习率η<＝η_min或达到预设的迭代次数，结束算法。

(5)聚类中心个数作为聚类个数即代码分块个数，得到AST节点的分类后，即得到了代码的分块方法，最后将分类后的AST节点对应到源代码，由此实现代码分块。

聚类后，将获得N×M个聚类中心，即最后获得N×M个代码分块。但在实际代码分块应用中，实际分类个数很有可能小于聚类个数N×M。在聚类过程中，SOM算法会出现竞争层某神经元始终不获胜，成为死神经元的情况，聚类结束之后，需要对聚类结果进行修正，例如过滤死神经元；设定不同阈值，当两个聚类的聚类中心距离小于阈值，则合并聚类，通过设定不同阈值，对比分析最终聚类结果，确定合适的阈值达到最好的代码分块效果，例如，当N×M远大于实际聚类个数时，循环语句for和while很有可能被划分为两个分类，但类间距离远小于与其他语句结构分类的距离，因此我们可以通过设定不同阈值合并短距离分类，优化代码分块结果。

实施例2：在本实施例中，使用实施例1所述的方法对100组小样本代码样例进行聚类以实现代码分块，100组样样例在聚类过程中全部收敛并取得良好的聚类效果，分块结果较相较现有代码分块方法分类结果具有更高的稳定性和聚类速度，较好的改善了现有代码分块过程中小样本聚类所面临的难收敛甚至不收敛问题。

其中一个样本的实施过程如下：随机初始化权重，每迭代训练50次的竞争层神经元分布如图1所示，改进后初始化权重收敛过程如图2所示，总结：训练任务中，随机初始化权重的竞争层神经元前期对数据的分布表示效果很差，在迭代500次左右收敛；优化后权重的竞争层神经元前期也能较好表示数据分布，在迭代200-300次左右收敛，因此通过减少迭代次数减少获得收敛结果所需的样本数，改善小样本聚类所面临的难收敛甚至不收敛问题。

Claims

1.一种基于无监督聚类的代码分块方法，其特征在于，所述方法首先将源代码抽象为抽象语法树，再将抽象语法树平铺得到的文本，使用文本训练词向量模型，得到抽象语法树中每个节点的词向量，接下来以词向量作为输入进行DBSCAN聚类，最后将DBSCAN聚类获得的聚类中心作为SOM算法竞争层神经元、聚类中心个数作为聚类个数即分块个数，具体为通过数据降维法将高维数据映射到竞争层初始化神经元权值，通过DBSCAN聚类算法确定出N×M个聚类中心，以此作为SOM算法初始权重值，由此实现代码分块。

2.根据权利要求1所述的一种基于无监督聚类的代码分块方法，其特征在于，在SOM算法中，输入神经元与输出神经元直接相连，每个连接对应一个权重值；使用欧氏距离，计算每个输出神经元的输入向量和输入向量之间的距离；距离最小的输出神经元被宣布为获胜者；然后，使用邻域函数最小化神经元自身与其邻域之间的总距离。

3.根据权利要求1所述的一种基于无监督聚类的代码分块方法，其特征在于，聚类个数先初始化为与初始样本数目m相关的一个较大数值，将聚类个数初始化为然后结合DBSCAN聚类获得神经元权重值，通过SOM算法进行聚类，将N×M初始化为获胜过的神经元的个数；在SOM算法中，对/>通过化整处理进行修正。

4.根据权利要求1所述的一种基于无监督聚类的代码分块方法，其特征在于，将聚类后的抽象语法树节点与源代码进行对应，使用抽象语法树节点的分类表示代码的分块结果，由此实现代码分块。

5.一种基于无监督聚类的代码分块装置，其特征在于，所述装置能够运行权利要求1-4任何一项所述基于无监督聚类的代码分块方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适用于由处理器加载并执行权利要求1-4任何一项所述基于无监督聚类的代码分块方法。