CN110286891B

CN110286891B - 一种基于代码属性张量的程序源代码编码方法

Info

Publication number: CN110286891B
Application number: CN201910554093.5A
Authority: CN
Inventors: 段旭; 吴敬征; 武延军; 罗天悦; 杨牧天; 倪琛
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2020-09-29
Anticipated expiration: 2039-06-25
Also published as: CN110286891A

Abstract

本发明涉及一种基于代码属性张量的程序源代码编码方法，包括：对程序源代码生成代码属性图；创建符号表、节点表和代码属性张量并进行初始化；将AST节点的数据类型和AST节点之间的运算关系编码到代码属性张量中；将AST节点之间的父子关系编码到代码属性张量中；将CFG节点之间的邻接关系编码到代码属性张量中，输出最终的代码属性张量。本发明为了解决已有的程序源代码的编码方式无法充分体现程序语义特征的问题，提出了代码属性张量的概念，以及将程序源代码编码为代码属性张量的算法。本发明可以在避免语义信息的丢失的情况下，将程序源代码编码为张量形式的数据，作为机器学习模型的输入，为后续的程序静态分析工作提供支持。

Description

一种基于代码属性张量的程序源代码编码方法

技术领域

本发明属于计算机技术领域，涉及一种基于代码属性张量的程序源代码编码方法。

背景技术

随着计算机行业的发展，计算机软件已成为生活不可或缺的一部分，各行各业都在广泛地应用着计算机系统，包括医疗、教育、军事、政治和新零售等领域。在计算机系统的迅速发展和普及之下，如何提高软件质量并保证其行为的可信性，已然成为学术界和工业界共同关注的重要问题。程序的静态分析技术是一种常见的程序分析技术，其不需要运行被测程序本身，仅通过分析或检查源程序的语法、结构、过程、接口等静态信息来检查程序的正确性，这类方法由于其操作的便捷性被广泛使用。

为有效地发现软件中存在的缺陷和漏洞，学术界一直在探索新型的静态分析方法。鉴于机器学习技术强大的特征学习能力，越来越多的基于机器学习的静态分析方法已经被提出。这些基于机器学习的静态分析技术通过对程序源代码进行编码，将特征转化为向量形式的数据，然后使用该数据对机器学习模型进行训练，从而预测其他待测代码中存在的缺陷或漏洞。然而，目前存在的对程序源代码的编码方式无法充分地体现程序的语义特征。例如，Zhao等在FSE 2018会议上提出的DeepSim将代码的控制流图编码成张量形式的数据，并使用该张量对深度学习模型进行训练。但是由于控制流图中仅包含程序的控制流信息，导致了其张量对代码语义特征表示的局限性。又例如Li等在NDSS2018会议上提出的VulDeePecker直接将源代码看做纯文本，并使用自然语言处理中的词嵌入对其生成词向量，然后使用词向量对深度学习模型进行训练。然而由于程序源代码中包含比自然语言更多的语义结构，例如控制依赖和数据依赖，因此直接将程序源代码看做纯文本进行处理会导致代码语义信息的丢失。在上述例子中，语义信息的丢失将直接导致机器学习模型无法充分地学习到源代码的特征，进而导致模型预测的准确率降低，以及在缺陷或漏洞检测时具有较高的误报率和漏报率。

本发明为了解决已有程序源代码的编码方式无法充分体现程序语义特征的问题，提出代码属性张量的概念，以及将程序源代码编码为代码属性张量的算法。本发明在避免语义信息的丢失的情况下，有效地将程序源代码转换为张量形式的数据，作为机器学习模型的输入，为后续的程序静态分析工作提供支持。

发明内容

本发明的技术解决问题：克服现有技术的不足，提供一种基于代码属性张量的程序源代码编码方法，该方法通过对程序源代码生成代码属性图，采用独创的编码算法对代码属性图生成代码属性张量，以张量的数据形式对代码进行特征表示，可以有效地将程序源代码编码为张量形式的数据，作为机器学习模型的输入，并为后续的静态分析工作提供支持。

为实现上述目的，本发明采用如下技术方案：

本发明的一种基于代码属性张量的程序源代码编码方法，其步骤包括：

(1)对程序源代码生成代码属性图(Code Property Graph，CPG)。CPG是一种综合了抽象语法树(Abstract Syntax Tree，AST)、控制流图(Control Flow Graph，CFG)和程序依赖图(Program Dependence Graph，PDG)的联合数据结构。代码属性图G＝(V,E,λ,μ)是一个有向的、边具有标记的属性多重图，其中V是节点的集合，E是有向边的集合。函数λ:E→Σ对边进行标记，其中Σ是标记符号的集合。函数μ:(V∪E)×K→S为节点和边赋予属性，其中K是属性的键的集合，S是属性的值的集合。

(2)创建符号表、节点表和代码属性张量并进行初始化。代码属性张量为一个三阶张量，假设代码属性张量为T，将T中坐标为(i,j,k)的元素记为T_i,j,k，则对

均满足T_i,j,k∈{0,1}。对每一个T_i,j,k，其对应代码属性图中的一个特定的特征。代码属性张量T对应整个代码属性图的特征集合。源代码、代码属性图和代码特征张量三者相互等价。符号表用于记录关键字、运算符和代码的语句类型在代码属性张量第三维中的索引。节点表用于记录节点代码及节点在代码属性张量的第一维和第二维中的索引。

(3)将AST节点的数据类型和AST节点之间的运算关系编码到代码属性张量中。其中，对AST节点的数据类型进行编码可以有效地将变量的数据类型信息体现在代码属性张量中，进而发现数据长度、变量类型等错误导致的程序缺陷。对AST节点之间的运算关系进行编码可以有效地将数据之间的依赖关系体现在代码属性张量中，进而发现与特定运算相关的程序缺陷，例如除零错误等。

(4)将AST节点之间的父子关系编码到代码属性张量中。对AST节点之间的父子关系进行编码可以有效地将程序代码语句的语法结构体现在代码属性张量中，进而发现程序中的语法错误等与语法结构相关的程序缺陷。

(5)将CFG节点之间的邻接关系编码到代码属性张量中，输出最终的代码属性张量。对CFG节点之间的邻接关系进行编码可以有效地将程序的控制依赖等语义信息编码到代码属性张量中，进而发现由于缺少条件检查或其他与控制流相关的程序缺陷。对CFG节点之前的邻接关系编码是生成代码属性张量的最后一步，完成该步后将最终的代码属性张量输出。

进一步地，步骤(1)中，包括以下步骤：

a)对程序源代码生成AST，并将其变换为属性图，记为G_A。具体方式为，假设属性图为G_A＝(V_A,E_A,λ_A,μ_A)，其中节点集V_A中的节点由原始抽象语法树的节点给出。边集E_A中的边由原始抽象语法树的边给出。函数λ_A将边标记为AST边。函数μ_A为节点赋予code属性、type属性和order属性。其中，code属性的属性值是字符串类型，对应于该节点所代表的代码。type属性的属性值也是字符串类型，对应于该节点所代表的代码的语句类型，例如“CallExpression”代表函数调用语句，“ConditionExpression”代表条件语句。order属性的属性值是整数类型，对应于该节点在兄弟节点中的序位，以反映树的有序结构，例如1代表该节点是其父节点的第一个子节点。

b)对程序源代码生成CFG，并将其变换为属性图，记为G_C。具体方式为，假设属性图为G_C＝(V_C,E_C,λ_C,·)，其中节点集V_C是V_A的子集，其对应于AST中表示语句和谓词的节点。此外，边标记函数λ_C:E_C→Σ_C从标记符号集Σ_C＝{true,false,ε}中为每条边分配标记，以指示控制流图跳转的条件。

c)对程序源代码生成PDG，并将其变换为属性图，记为G_P。具体方式为，假设属性图为G_P＝(V_P,E_P,λ_P,μ_P)，其中节点集V_P＝V_C，边集E_P中的边对应于原始程序依赖图的边。此外，边标记函数λ_P:E_P→Σ_P从标记符号集Σ_P＝{C,D}中为每条边分配标记，以指示控制依赖或数据依赖。函数μ_P为每条数据依赖边赋予symbol属性，以指示所依赖的相应符号，并为每条控制依赖边赋予condition属性，以指示控制依赖的谓词状态，例如true或false。

d)将G_A，G_C和G_P组合成CPG，记为G。具体方式为，假设代码属性图为G＝(V,E,λ,μ)，其中V＝V_A，E＝E_A∪E_C∪E_P，λ＝λ_A∪λ_C∪λ_P，并且μ＝μ_A∪μ_P。

进一步地，步骤(2)中，包括以下步骤：

a)创建符号表，记为Table_symbol，将编程语言中的关键字和运算符以及CPG中节点语句类型的全集写入该符号表，用于记录关键字、运算符和代码语句类型在代码属性张量第三维中的索引。

b)创建节点表，记为Table_node，将节点表清空，用于记录节点所代表的代码及节点在代码属性张量的第一维和第二维中的索引。

c)创建代码属性张量，记为T，

其中R代表实数集合，令

T_i,j,k＝0。

进一步地，步骤(3)中，包括以下步骤：

a)假设代码属性图为G＝(V,E,λ,μ)，V_C是CFG节点集合，其中

b)对V_C中节点按照其对应语句在源文件中的位置升序排序，并反向入栈。

c)取栈顶节点，判断节点类型。如果该节点是AST叶子节点并引入了新的变量，则将该节点的code属性值写入节点表中，对该变量的数据类型进行编码，例如假设该节点的code属性值在节点表中的索引为a，该变量数据类型的关键字在符号表中的索引为b，则T_a,*,b＝1，其中*代表任意值。如果该节点是AST中间节点，那么将其子节点入栈，并将该中间节点的code属性值写入节点表中，并判断该节点的code属性值(即所代表的代码)中是否包含运算符，如果有，则对其操作数的运算关系进行编码，例如假设x op y中x和y是操作数，op是运算符，x在节点表中的索引为a，y在节点表中的索引为b，op在符号表中的索引为c，则令T_a,b,c＝1。

d)根据b)中所述步骤对栈中所有节点进行处理，直到栈空。

进一步地，步骤4)中，包括以下步骤：

a)设代码属性图为G＝(V,E,λ,μ)，V_A是AST节点集合，其中

b)获取任意两个节点v_i和v_j，其中v_i，v_j∈V_A，v_i≠v_j。

c)判断v_i和v_j的父子关系，如果v_i是v_j的子节点，并且v_i和v_j的code属性值在节点表中的索引分别为a和b，v_j的type属性值在符号表中的索引为c，则令T_a,b,c＝1。

d)根据b)和c)中步骤对V_A中所有节点进行处理。

进一步地，步骤5)中，包括以下步骤：

a)设代码属性图为G＝(V,E,λ,μ)，V_C是CFG节点集合，其中

b)对V_C中节点按照其对应语句在源文件中的位置升序排序，并将节点的code属性值按照顺序写入节点表中。

c)获取任意两个节点v_i和v_j，其中v_i,v_j∈V_C，v_i≠v_j。

d)判断v_i和v_j的邻接关系，如果v_i与v_j邻接，邻接边的方向是从v_i指向v_j，v_i和v_j的code属性值在节点表中的索引分别为a和b，v_j的type属性值在符号表中的索引为c，则令T_a,b,c＝1。

e)根据c)和d)中步骤对V_C中所有节点进行处理。

本发明与现有技术相比的优点在于：

(1)本发明通过将程序表示成代码属性图，有效地包含了源代码的语法结构、控制流转移、控制依赖和数据依赖四种语义信息，并通过编码算法将其生编码为张量形式的数据，可以在避免语义信息丢失的情况下，为程序分析任务中的机器学习模型训练和预测提供支持。

(2)本发明通过对代码属性图中的AST节点的数据类型、AST节点之间的运算关系、AST节点之间的父子关系和CFG节点之间的邻接关系进行编码，可以有效地覆盖数据长度错误、变量类型错误、运算错误、语法错误、控制流错误等问题导致的程序缺陷的关键特征，为缺陷发现提供支持。

附图说明

图1是基于代码属性张量的程序源代码编码方法的流程图；

图2是对程序源代码生成代码属性图的流程图；

图3是创建符号表、节点表和代码属性张量并进行初始化的流程图；

图4是对AST节点的数据类型和运算关系编码的流程图；

图5是对AST节点之间的父子关系进行编码的流程图；

图6是对CFG节点之间的邻接关系进行编码并输出代码属性张量的流程图。

具体实施方式

下面结合附图，对本发明做进一步的说明。

本实施例基于代码属性张量的程序源代码编码方法，其中总体流程如图1所示，主要包括以下步骤：

1)对程序源代码生成代码属性图，其流程如图2所示，具体说明如下：

1a)对程序源代码生成AST，为每个节点赋予code属性，其属性值对应于节点所代表的代码，为每个节点赋予type属性，其属性值对应于该节点所代表的代码的语句类型，为每个节点赋予order属性，以反映树的有序结构，转到1b)。

1b)对程序源代码生成CFG，对边的跳转条件进行标记，转到1c)。

1c)对程序源代码生成PDG，对边的依赖类型进行标记，为每个数据依赖赋予symbol属性，以指示相应的符号，同时为每个控制依赖赋予condition属性，以指示原始谓词的状态，转到1d)。

1d)将G_A，G_C和G_P组合成CPG，记为G，G＝(V,E,λ,μ)，其中V＝V_A，E＝E_A∪E_C∪E_P，λ＝λ_A∪λ_C∪λ_P，并且μ＝μ_A∪μ_P。

2)创建符号表、节点表和代码属性张量并进行初始化，其流程如图3所示，具体说明如下：

2a)创建符号表，记为Table_symbol，将编程语言中的关键字和运算符以及CPG中节点的语句类型的全集写入该符号表，转到2b)。

2b)创建节点表，记为Table_node，将节点表清空，转到2c)。

2c)创建代码属性张量，将其记为T，

其中R代表实数集合，令

T_i,j,k＝0。

3)对AST节点的数据类型和AST节点之间的运算关系进行编码，其流程如图4所示，具体说明如下：

3a)获取代码属性图中的所有CFG节点的集合V_C，其中

转到3b)。

3b)对CFG节点按照其对应语句在源文件中的位置进行升序排序，并反向入栈，转到3c)。

3c)取栈顶节点，并将该节点出栈，转到3d)。

3d)判断该节点的节点类型，如果节点类型是AST叶子节点，并且其code属性值在节点表中不存在，则转到3e)，如果节点类型是AST中间节点，则转到3h)。如果节点类型是CFG节点，则转到3l)。

3e)判断该AST叶子节点的code属性值在节点表中是否存在，若在节点表中不存在则转到3f)，若在节点表中存在则转到3m)。

3f)将该AST叶子节点的code属性值写入节点表中，转到3g)。

3g)对该AST叶子节点代表的变量的数据类型进行编码，具体方式为，假设该节点的code属性值在节点表中的索引为a，该变量数据类型的关键字在符号表中的索引为b，则令T_a,*,b＝1，其中*代表任意值，转到3m)。

3h)将该AST中间节点的code属性值写入节点表中，转到3i)。

3i)将该AST中间节点的子AST节点入栈，转到3j)。

3j)判断该AST中间节点代表的代码中是否包含符号表中的运算符，若是则转到3k)，若否则转到3m)。

3k)对操作数之间的运算关系进行编码，具体方式为，假设x op y中x和y是操作数，op是运算符，x在节点表中的索引为a，y在节点表中的索引为b，op在符号表中的索引为c，则令T_a,b,c＝1，转到3m)。

3l)将该CFG节点邻接的AST节点入栈，转到3m)。

3m)判断栈是否为空，若否则转3c)。

4)对AST节点之间的父子关系进行编码，其流程如图5所示，具体说明如下：

4a)获取代码属性图中所有AST节点的集合V_A，其中

转到4b)。

4b)获取V_A中两个节点v_i和v_j，其中v_i,v_j∈V_A，v_i≠v_j，转到4c)。

4c)判断v_i和v_j的父子关系，如果v_i是v_j的子节点，则转到4d)，否则转到4e)。

4d)假设v_i和v_j的code属性值在节点表中的索引分别为a和b，v_j的type属性值在符号表中的索引为c，则令T_a,b,c＝1，转到4d)。

4e)判断是否V_A中所有节点组合均已处理，若否则转到4b)。

5)对CFG节点之间的邻接关系进行编码，并输出代码属性张量，其流程如图6所示，具体说明如下：

5a)获取代码属性图中的所有CFG节点的集合V_C，其中

转到5b)。

5b)对V_C中节点按照对应语句在源文件中的位置升序排序，并将节点的code属性值按照顺序写入节点表中，转到5c)。

5c)获取V_C中的两个节点v_i和v_j，其中v_i,v_j∈V_C，v_i≠v_j，转到5d)。

5d)判断v_i和v_j的邻接关系，如果v_i和v_j邻接，转到5e)，否则转到5f)。

5e)假设邻接边的方向从v_i指向v_j，v_i和v_j的code属性值在节点表中的索引分别为a和b，v_j的type属性值在符号表中的索引为c，则令T_a,b,c＝1，转到5f)。

5f)判断是否V_C中所有节点组合均已处理，若否则转到5c)。

总之，本发明为了解决已有的程序源代码的编码方式无法充分体现程序语义特征的问题，提出了代码属性张量的概念，以及将程序源代码编码为代码属性张量的算法。本发明可以在避免语义信息的丢失的情况下，将程序源代码转换为张量形式的数据，作为机器学习模型的输入，为后续的静态分析工作提供支持。

以上虽然描述了本发明的具体实施方法，但是本领域的技术人员应当理解，这些仅是举例说明，在不背离本发明原理和实现的前提下，可以对这些实施方案做出多种变更或修改，因此，本发明的保护范围由所附权利要求书限定。

Claims

1.一种基于代码属性张量的程序源代码编码方法，其特征在于，包括以下步骤：

(1)对程序源代码生成代码属性图；

(2)创建符号表、节点表和代码属性张量T，并进行初始化，假设符号表中条目数量为|Table_symbol|，节点表中条目数量为|Table_node|，则代码属性张量

其中R代表实数集合，将T中坐标为(i,j,k)的元素记为T_i,j,k，则对

均满足T_i,j,k∈{0,1}，并且每一个T_i,j,k均对应代码属性图中的一个特定的特征；

(3)根据代码属性图中抽象语法树数据类型和运算关系信息，将抽象语法树节点的数据类型和抽象语法树节点之间的运算关系编码到代码属性张量中；

(4)根据代码属性图中抽象语法树的节点父子关系信息，将抽象语法树节点之间的父子关系编码到代码属性张量中；

(5)根据代码属性图中控制流图的邻接关系信息，将控制流图节点之间的邻接关系编码到代码属性张量中，输出最终的代码属性张量，该张量中有效地包含了源代码的语义信息，用于后续对而程序静态分析任务中的机器学习模型进行训练。

2.根据权利要求1所述的方法，其特征在于：所述步骤(2)中，符号表和节点表用于在后续步骤中辅助进行编码，符号表中记录关键字、运算符和代码的语句类型在代码属性张量第三维中的索引；节点表中记录节点代码及节点在代码属性张量的第一维和第二维中的索引。

3.根据权利要求1所述的方法，其特征在于：所述步骤(3)中，对抽象语法树节点的数据类型进行编码的方式为，若该节点代表一个变量，且其code属性值在节点表中的索引为a，该变量数据类型的关键字在符号表中的索引为b，则T_a,*,b＝1，其中*代表任意值。

4.根据权利要求1所述的方法，其特征在于：所述步骤(3)中，对抽象语法树节点之间的运算关系进行编码的方式为，若操作数在节点表中的索引分别为a和b，运算符在符号表中的索引为c，则令T_a,b,c＝1。

5.权利要求1所述的方法，其特征在于，所述步骤(4)中，对抽象语法树节点之间的父子关系进行编码的方式为，若节点v_i是节点v_j的子节点，并且v_i和v_j的code属性值在节点表中的索引分别为a和b，v_j的type属性值在符号表中的索引为c，则令T_a,b,c＝1。

6.根据权利要求1所述的方法，其特征在于，所述步骤(5)中，对控制流图节点之间的邻接关系进行编码的方式为：若节点v_i与节点v_j邻接，并且邻接边的方向从v_i指向v_j，v_i和v_j的code属性值在节点表中的索引分别为a和b，v_j的type属性值在符号表中的索引为c，则令T_a,b,c＝1。