CN101398758A

CN101398758A - 一种代码抄袭的检测方法

Info

Publication number: CN101398758A
Application number: CNA2008102253305A
Authority: CN
Inventors: 熊浩; 晏海华
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2008-10-30
Filing date: 2008-10-30
Publication date: 2009-04-01
Anticipated expiration: 2028-10-30
Also published as: CN101398758B

Abstract

本发明一种代码抄袭的检测方法，它是收集待检测的两份代码在不同方面的相似值，作为神经网络的输入向量，通过神经网络学习，得出是否抄袭的结论。它能消除代码在布局和语法等价变换两方面的影响，尽可能的识别语义分析方面的抄袭手段，提高原有检测工具的检测效果。该检测方法检测精度高、效果好，可以检测更多的抄袭手段，宜于推广。

Description

一种代码抄袭的检测方法

技术领域

本发明涉及一种代码抄袭的检测方法，尤其涉及一种计算机程序代码抄袭的检测方法，属计算机程序检测技术领域。

背景技术

当前，随着计算机技术的不断发展。小至计算机专业的程序设计课程作业，大至软件产品。程序代码中的克隆、抄袭、剽窃现象越来越严重。这与程序代码这类电子文件易于拷贝的特点有很大的关系。相对自然语言，程序语言的语法规则比较简单，抄袭者只需要通过编辑器改变代码外观就可达到抄袭目的。

一般来说，如果一份代码由另一份代码完全拷贝或只做了很少量的修改得到，就可以认为此代码为抄袭代码。抄袭代码通常是花费很少的代价产生的。在发表于计算机与教育杂志(1987)“一种大学程序作业相似性度量与抄袭检测的经验方法”(An Empirical Approachfor Detecting Program Similarity and Plagiarism within aUniversity Programming Environment[J].Computers andEducation.11(1):11-19.1987)这篇论文中，范德海(Faidhi)和罗宾逊(Robinson)总结了常用的七种抄袭手段，根据抄袭所付出的代价，这些手段从易到难为(1)未更改(2)修改注释(3)修改标识符(4)调整变量位置(5)过程组合(6)调整语句位置(7)调整控制结构逻辑。在发表于第六届北美大学计算科学协会年会论文集“抄袭检测度量元”(Metrics based plagiarism monitoring.Paper presented at the 6th Annual CCSC NortheasternConference，Middlebury VT.2001)一文中，琼斯(Jones)总结了十种剽窃手段。分别为(1)逐字拷贝(2)更改注释语句(3)更改空白区域(4)重新命名标识符(5)改变代码块的顺序(6)改变代码块中语句的顺序(7)改变表达式中操作符和操作数的顺序(8)更改数据类型(9)增加冗余的语句和变量(10)用等价的控制结构替换原有控制结构。此外，还有学者在研究过程中提出其他的一些抄袭手段。虽然抄袭手段的方式各种各样，但是抄袭者在不理解代码内部流程的情况下，要达到程序运行正确和加大检测难度这两个目的。所做的代码变化可以归纳为三个方面：

1.代码布局。比如重新排版，代码段的重排序等。

2.语法理解。比如标识符换名，等价关键字的替换等。

3.语义分析。比如函数分解与结合，等价语句块变换等。代码在1、2两个方面的变化所需要的代价很小，只需要使用编辑器改变代码的外观，Faidhi归纳的7种和Jones总结的10种抄袭手段均集中在这两个方面。抄袭手段在语义层面需要付出较高的代价，但语义分析涉及的代码语句较多，能够在很大程度上改变代码外观，加大了检测的难度。

国外已有许多软件工具可用来检测源程序是否抄袭，如斯坦福大学的MOSS系统、德国Karlsruhe大学的JPlag系统、威奇塔州立大学的SIM系统、悉尼大学的YAP3系统以及伊利诺伊大学的GPLAG系统。这些检测工具采用属性度量和结构分析的方法计算程序的相似度。

国内对于代码相似性的研究工作较少。可以考证的工具有：北航高级程序课程教学辅助平台中用于检测学生提交程序作业是否抄袭的BUAASIM系统，中国人民警官大学的PASCAL程序抄袭判定系统，内蒙古师范大学和北京邮电大学的代码抄袭评测系统。

然而，上述的这些工具基本都是各个机构为代码相似检测这一课题研究而作(仅有JPlag、MOSS系统提供免费使用功能，本专利发明人使用北航BUAASIM系统)。而且大部分工具只能检测出很少量的抄袭手段，代码只需要作一些语法和语义的等价变化就可以逃避抄袭检测。

发明内容

本发明的目的在于，消除代码在布局和语法等价变换两方面的影响，尽可能的识别语义分析方面的抄袭手段，提高原有检测工具的检测效果。

本发明的基本思想是收集待检测的两份代码在不同方面的相似值，作为神经网络的输入向量；通过神经网络学习，得出是否抄袭的结论。该方法的流程如图一所示。

本发明分为两个阶段。其一为特征发生阶段，引入代码注释分离技术，编译技术，优化编译和反汇编技术将代码集分解或变换成比较样本集，剔除样本集中无关信息，通过计算公式得出检测程序对的七种相似性结果，组成特征向量；第一阶段包括下述三个步骤，目的是提取比较代码的七个相似值，这七个值分别是：

1.优化编译和反汇编代码相似性一(SCD1)

2.优化编译和反汇编代码相似性二(SCD2)

3.编译线性化标识符相似性一(SLC1)

4.编译线性化标识符相似性二(SLC2)

5.代码风格相似性(SCS)

6.注释风格相似性(SRS)

7.统计属性相似性(SSC)其二为BP神经网络训练阶段，BP神经网络结构如图3所示，将比较代码的特征向量输入至BP神经网络，输出即为两代码是否抄袭的预测值。

。本发明一种代码抄袭的检测方法，该方法步骤如下：步骤一优化编译和反汇编代码相似性一(SCD1)与优化编译和反汇

编代码相似性二(SCD2)值获得；

检测程序通过优化编译成可执行的二进制文件，将此二进制文件反汇编成汇编代码，从中抽取原代码程序部分的汇编指令，删除与程序代码段无关的信息，噪音处理后使用相似度决策函数计算汇编指令集合，得到SCD1和SCD2值。

噪音处理是过滤汇编代码中偏移地址、函数地址和立即数，转化为标识量OFFSET、FUNCTION和CONSTANT。

设P₁、P₂为两个待检测的程序，F(P₁)和F(P₂)表示P₁、P₂经过优化编译和反汇编后的汇编指令集，Sim(P₁，P₂)为代码的相似度。

SCD1计算公式为Sim(P₁，P₂)＝(F(P₁)∩F(P₂))/(F(P₁)∪F(P₂))

SCD2计算公式为

Sim (P_{1}, P_{2}) = \frac{match}{match + (f (P_{1}) - P_{1}_match) + (f (P_{2}) - P_{2}_match)}

f函数为获取汇编文本的代码行数，P_1-match为P₁汇编指令在P₂汇编指令集中匹配的行数，match值为P_1-match和P_2-match的最大值。

步骤二编译线性化标识符相似性一(SLC1)和编译线性化标识符相似性二(SLC2)值获得；

图2为代码编译技术流程。待检测程序通过编译器的词法分析、语法分析和语义分析后转化成标识符集合，标识符线性化方法消除了源代码中的函数调用关系，将执行顺序复杂的标识符集调整为一维线性顺序的标识符流。使用相似度决策函数计算得到SLC1和SLC2值。

标识符线性化方法是当出现函数调用的标识符时，将所调用的函数部分的标识符序列还原至函数调用接口处。需要指出的是，对于一般的函数直接调用关系，只需要把调用函数的标识符插入函数调用处。如果存在递归调用关系，需要做特别的处理。直接递归调用关系(函数内部语句调用其自身函数)，调用自身函数接口处的标识符统一用CALL FUNCTION标识符代替。间接递归调用关系(函数之间相互调用)，只允许函数标识符还原一次，嵌套调用接口处统一使用CALLFUNCTION标识符代替。

设需要比较的两标识符序列为X＝<x₁，x₂，…，x_n>和Y＝<y₁，y₂，…，y_m>。使用LCS算法获得两序列的最长公共子序列，构造C[i，j]矩阵，矩阵维数为m*n。LCS算法：

1 m＝length[X]，n＝length[Y]

2 for i＝1 to m

3 C[i，0]＝0

4 for j＝1 to n

5 C[0，j]＝0

6 for i＝1 to m

7 for j＝1 to n

8 if x_i＝y_j

9 C[i，j]＝C[i-1，j-1]+1

10 else if C[i-1，j]≥C[i，j-1]

11 C[i，j]＝C[i-1，j]

12 else C[i，j]＝C[i，j-1]

13 return C

算法结束，C[m-1，n-1]的值为最长公共子序列的长度。

SLC1计算公式为Sim(P₁，P₂)＝C[m-1][n-1]/min_line

SLC2计算公式为Sim(P₁，P₂)＝2*C[m-1，n-1]/(m+n)min_line为m和n值中的较小值。

步骤三代码风格相似性(SCS)、注释风格相似性(SRS)和统计属性相似性(SSC)值获得；

程序代码的属性特征，主要集中在程序风格和统计信息两个方面。而程序风格又包括代码风格和注释风格。将程序的代码段与注释行分离，分别提取这三个方面的特征。

代码风格：

(1)代码的行长字符平均值

(2)代码行前缩进的空白字符平均值

(3)代码行中分隔的空白字符平均值

(4)代码行尾保留的空白字符平均值

(5)空白代码占整个代码的百分比

(6)复合语句行占整个代码行的百分比

(7)左大括号位置规范出现的比例

注释风格：

(1)注释的行长字符平均值

(2)块注释行占整个注释行的比例

(3)单行注释行占整个注释行的比例

(4)单行复合注释行占整个注释行的比例

代码风格(7)中规范出现是指左大括号应该出现在声明语句同行和复合语句起始行的行尾。注释风格(2)的块注释通常是对文件，类，方法和算法的描述，能够提高代码的可读性。块注释的标志是使用/*和*/标识符，且两者不在同一行中。注释风格(3)(4)的区别在于代码中单独的某一行时候包含可执行的程序语句。如果不包含程序语句，该行为单行注释行，否则为单行复合注释行。

统计特征：

(1)代码行数

(2)赋值语句个数

(3)循环控制语句个数

(4)选择控制语句个数

(5)自定义函数个数

赋值语句包括直接变量赋值和从终端、文本输入值。循环控制和选择控制语句以关键字为标志。比如C语言中，包含for、do/while和while关键字的语句为循环控制语句。而选择控制语句中的关键字有if、switch/case、if/else和三目运算符？：。

设需要检测的代码集为P₁，P₂，…，P_n，集合中任意一份代码P_x的三类属性为：代码风格CS＝<a_1x，a_2x，…，a_7x>，注释风格RS＝<b_1x，b_2x，…，b_4x>，统计特征SC＝<c_1x，c_2x，…，c_5x>。规格化处理属性：

代码风格CS′为

< a_{1 x}^{'}, a_{2 x}^{'}, . . ., a_{7 x}^{'} > = < \frac{a_{1 x}}{Σ_{t = 1}^{n} a_{1 t}}, \frac{a_{2 x}}{Σ_{t = 1}^{n} a_{2 t}}, . . ., \frac{a_{7 x}}{Σ_{t = 1}^{n} a_{7 t}} >

注释风格RS′为

< b_{1 x}^{'}, b_{2 x}^{'}, . . ., b_{4 x}^{'} > = < \frac{b_{1 x}}{Σ_{t = 1}^{n} b_{1 t}}, \frac{b_{2 x}}{Σ_{t = 1}^{n} b_{2 t}}, . . ., \frac{b_{4 x}}{Σ_{t = 1}^{n} b_{4 t}} >

统计特征SC′为

< c_{1 x}^{'}, c_{2 x}^{'}, . . ., c_{5 x}^{'} > = < \frac{c_{1 x}}{Σ_{t = 1}^{n} c_{1 t}}, \frac{c_{2 x}}{Σ_{t = 1}^{n} c_{2 t}}, . . ., \frac{c_{5 x}}{Σ_{t = 1}^{n} c_{5 t}} >

SCS计算公式为

Sim (P_{i}, P_{j}) = 1 - \sqrt{Σ_{u = 1}^{7} {(a_{ui}^{'} - a_{uj}^{'})}^{2} / 7}

SRS计算公式为

Sim (P_{i}, P_{j}) = 1 - \sqrt{Σ_{u = 1}^{4} {(b_{ui}^{'} - b_{uj}^{'})}^{2} / 4}

SSC计算公式为

Sim (P_{i}, P_{j}) = 1 - \sqrt{Σ_{u = 1}^{5} {(c_{ui}^{'} - c_{uj}^{'})}^{2} / 5}

n份比较代码集P₁，P₂，…，P_n中任意两份代码通过第一阶段都可以转化为比较特征向量<SCD1，SCD2，SLC1，SLC2，SCS，SRS，SSC>，这样的比较特征向量一共有

个。

步骤四网络训练判定是否存在抄袭。

个比较特征向量输入至神经网络的输入层，经过网络的反复运算，得出神经网络训练值，再将该值与抄袭决策阈值相比较，得出是否抄袭的结论。神经网络可以借助工具来搭建，只需要一份典型的训练样本训练即可使此网络具有抄袭检测的能力。

该检测方法与现有技术比，检测精度高、效果好，可以检测更多的抄袭手段，宜于推广。

附图说明

图1程序抄袭检测方法方框示意图

图2代码编译技术流程示意图

图3BP神经网络模型结构示意图

具体实施方式

见图1、图2、图3所示，一种代码抄袭的检测方法，其具体实施方式如下：

步骤一优化编译和反汇编代码相似性一(SCD1)与优化编译和反汇编代码相似性二(SCD2)值获得；

SCD1计算公式为Sim(P₁，P₂)＝(F(P₁)∩F(P₂))/(F(P₁)∪F(P₂))

SCD2计算公式为

Sim (P_{1}, P_{2}) = \frac{match}{match + (f (P_{1}) - P_{1}_match) + (f (P_{2}) - P_{2}_match)}

1 m＝length[X]，n＝length[Y]

2 for i＝1 to m

3 C[i，0]＝0

4 for j＝1 to n

5 C[0，j]＝0

6 for i＝1 to m

7 for j＝1 to n

8 if x_i＝y_j

9 C[i，j]＝C[i-1，j-1]+1

10 else if C[i-1，j]≥C[i，j-1]

11 C[i，j]＝C[i-1，j]

12 else C[i，j]＝C[i，j-1]

13 return C

算法结束，C[m-1，n-1]的值为最长公共子序列的长度。

SLC1计算公式为Sim(P₁，P₂)＝C[m-1][n-1]/min_line

代码风格：

(1)代码的行长字符平均值

(2)代码行前缩进的空白字符平均值

(3)代码行中分隔的空白字符平均值

(4)代码行尾保留的空白字符平均值

(5)空白代码占整个代码的百分比

(6)复合语句行占整个代码行的百分比

(7)左大括号位置规范出现的比例

注释风格：

(1)注释的行长字符平均值

(2)块注释行占整个注释行的比例

(3)单行注释行占整个注释行的比例

(4)单行复合注释行占整个注释行的比例

统计特征：

(1)代码行数

(2)赋值语句个数

(3)循环控制语句个数

(4)选择控制语句个数

(5)自定义函数个数

代码风格CS′为

< a_{1 x}^{'}, a_{2 x}^{'}, . . ., a_{7 x}^{'} > = < \frac{a_{1 x}}{Σ_{t = 1}^{n} a_{1 t}}, \frac{a_{2 x}}{Σ_{t = 1}^{n} a_{2 t}}, . . ., \frac{a_{7 x}}{Σ_{t = 1}^{n} a_{7 t}} >

注释风格RS′为

< b_{1 x}^{'}, b_{2 x}^{'}, . . ., b_{4 x}^{'} > = < \frac{b_{1 x}}{Σ_{t = 1}^{n} b_{1 t}}, \frac{b_{2 x}}{Σ_{t = 1}^{n} b_{2 t}}, . . ., \frac{b_{4 x}}{Σ_{t = 1}^{n} b_{4 t}} >

统计特征SC′为

< c_{1 x}^{'}, c_{2 x}^{'}, . . ., c_{5 x}^{'} > = < \frac{c_{1 x}}{Σ_{t = 1}^{n} c_{1 t}}, \frac{c_{2 x}}{Σ_{t = 1}^{n} c_{2 t}}, . . ., \frac{c_{5 x}}{Σ_{t = 1}^{n} c_{5 t}} >

SCS计算公式为

Sim (P_{i}, P_{j}) = 1 - \sqrt{Σ_{u = 1}^{7} {(a_{ui}^{'} - a_{uj}^{'})}^{2} / 7}

SRS计算公式为

Sim (P_{i}, P_{j}) = 1 - \sqrt{Σ_{u = 1}^{4} {(b_{ui}^{'} - b_{uj}^{'})}^{2} / 4}

SSC计算公式为

Sim (P_{i}, P_{j}) = 1 - \sqrt{Σ_{u = 1}^{5} {(c_{ui}^{'} - c_{uj}^{'})}^{2} / 5}

个。

步骤四网络训练判定是否存在抄袭。

Claims

1、一种代码抄袭的检测方法，其特征在于：该方法步骤如下

步骤一优化编译和反汇编代码相似性一即SCD1与优化编译和反汇编代码相似性二即SCD2值获得；

检测程序通过优化编译成可执行的二进制文件，将此二进制文件反汇编成汇编代码，从中抽取原代码程序部分的汇编指令，删除与程序代码段无关的信息，噪音处理后使用相似度决策函数计算汇编指令集合，得到SCD1和SCD2值；

噪音处理是过滤汇编代码中偏移地址、函数地址和立即数，转化为标识量OFFSET、FUNCTION和CONSTANT；

设P₁、P₂为两个待检测的程序，F(P₁)和F(P₂)表示P₁、P₂经过优化编译和反汇编后的汇编指令集，Sim(P₁，P₂)为代码的相似度；

SCD1计算公式为Sim(P₁，P₂)＝(F(P₁)∩F(P₂))/(F(P₁)∪F(P₂))

SCD2计算公式为

Sim (P_{1}, p_{2}) = \frac{match}{match + (f (P_{1}) - P_{1}_match) + (f (P_{2}) - P_{2}_match)}

f函数为获取汇编文本的代码行数，P₁_match为P₁汇编指令在P₂汇编指令集中匹配的行数，match值为P₁_match和P₂_match的最大值；

步骤二　编译线性化标识符相似性一即SLC1和编译线性化标识符相似性二即SLC2值获得；

图2为代码编译技术流程，待检测程序通过编译器的词法分析、语法分析和语义分析后转化成标识符集合，标识符线性化方法消除了源代码中的函数调用关系，将执行顺序复杂的标识符集调整为一维线性顺序的标识符流，使用相似度决策函数计算得到SLC1和SLC2值；

标识符线性化方法是当出现函数调用的标识符时，将所调用的函数部分的标识符序列还原至函数调用接口处，需要指出的是，对于一般的函数直接调用关系，只需要把调用函数的标识符插入函数调用处，如果存在递归调用关系，需要做特别的处理，直接递归调用关系，调用自身函数接口处的标识符统一用CALL FUNCTION标识符代替，间接递归调用关系，只允许函数标识符还原一次，嵌套调用接口处统一使用CALL FUNCTION标识符代替；

设需要比较的两标识符序列为X＝<x₁，x₂，…，x_n>和Y＝<y₁，y₂，…，y_m>，使用LCS算法获得两序列的最长公共子序列，构造C[i，j]矩阵，矩阵维数为m*n，LCS算法：

1 m＝length[X]，n＝length[Y]

2 for i＝1 to m

3 C[i，0]＝0

4 for j＝1 to n

5 C[0，j]＝0

6 for i＝1 to m

7 for j＝1 to n

8 if x_i＝y_j

9 C[i，j]＝C[i-1，j-1]+1

10 else if C[i-1，j]≥C[i，j-1]

11 C[i，j]＝C[i-1，j]

12 else C[i，j]＝C[i，j-1]

13 return C

算法结束，C[m-1，n-1]的值为最长公共子序列的长度；

SLC1计算公式为Sim(P₁，P₂)＝C[m-1][n-1]/min_line

SLC2计算公式为Sim(P₁，P₂)＝2*C[m-1，n-1]/(m+n)

min_line为m和n值中的较小值；

步骤三代码风格相似性即SCS、注释风格相似性即SRS和统计属性相似性即SSC值获得；

程序代码的属性特征，主要集中在程序风格和统计信息两个方面，而程序风格又包括代码风格和注释风格，将程序的代码段与注释行分离，分别提取这三个方面的特征；

代码风格：

(1)代码的行长字符平均值

(2)代码行前缩进的空白字符平均值

(3)代码行中分隔的空白字符平均值

(4)代码行尾保留的空白字符平均值

(5)空白代码占整个代码的百分比

(6)复合语句行占整个代码行的百分比

(7)左大括号位置规范出现的比例

注释风格：

(1)注释的行长字符平均值

(2)块注释行占整个注释行的比例

(3)单行注释行占整个注释行的比例

(4)单行复合注释行占整个注释行的比例

代码风格(7)中规范出现是指左大括号应该出现在声明语句同行和复合语句起始行的行尾，注释风格(2)的块注释通常是对文件，类，方法和算法的描述，能够提高代码的可读性，块注释的标志是使用/*和*/标识符，且两者不在同一行中，注释风格(3)(4)的区别在于代码中单独的某一行时候包含可执行的程序语句，如果不包含程序语句，该行为单行注释行，否则为单行复合注释行；

统计特征：

(1)代码行数

(2)赋值语句个数

(3)循环控制语句个数

(4)选择控制语句个数

(5)自定义函数个数

赋值语句包括直接变量赋值和从终端、文本输入值，循环控制和选择控制语句以关键字为标志，比如C语言中，包含for、do/while和while关键字的语句为循环控制语句，而选择控制语句中的关键字有if、switch/case、if/else和三目运算符？：。

设需要检测的代码集为P₁，P₂，…，P_n，集合中任意一份代码P_x的三类属性为：代码风格CS＝<a_1x，a_2x，…，a_7x>，注释风格RS＝<b_1x，b_2x，…，b_4x>，统计特征SC＝<c_1x，c_2x，…，c_5x>，规格化处理属性：

代码风格CS′为

< a_{1 x}^{'}, a_{2 x}^{'}, . . ., a_{7 x}^{'} > = < \frac{a_{1 x}}{Σ_{t = 1}^{n} a_{1 t}}, \frac{a_{2 x}}{Σ_{t = 1}^{n} a_{2 t}}, . . ., \frac{a_{7 x}}{Σ_{t = 1}^{n} a_{7 t}} >

注释风格RS′

< b_{1 x}^{'}, b_{2 x}^{'}, . . ., b_{4 x}^{'} > = < \frac{b_{1 x}}{Σ_{t = 1}^{n} b_{1 t}}, \frac{b_{2 x}}{Σ_{t = 1}^{n} b_{2 t}}, . . ., \frac{b_{4 x}}{Σ_{t = 1}^{n} b_{4 t}} >

统计特征SC′为

< c_{1 x}^{'}, a_{2 x}^{'}, . . ., c_{5 x}^{'} > = < \frac{c_{1 x}}{Σ_{t = 1}^{n} c_{1 t}}, \frac{c_{2 x}}{Σ_{t = 1}^{n} c_{2 t}}, . . ., \frac{c_{5 x}}{Σ_{t = 1}^{n} c_{5 t}} >

SCS计算公式为

Sim (P_{i}, P_{j}) = 1 - \sqrt{Σ_{u = 1}^{7} {(a_{ui}^{'} - a_{uj}^{'})}^{2} / 7}

SRS计算公式为

Sim (P_{i}, P_{j}) = 1 - \sqrt{Σ_{u = 1}^{4} {(b_{ui}^{'} - b_{uj}^{'})}^{2} / 4}

SSC计算公式为

Sim (P_{i}, P_{j}) = 1 - \sqrt{Σ_{u = 1}^{5} {(c_{ui}^{'} - c_{uj}^{'})}^{2} / 5}

个；

步骤四网络训练判定是否存在抄袭；

个比较特征向量输入至神经网络的输入层，经过网络的反复运算，得出神经网络训练值，再将该值与抄袭决策阈值相比较，得出是否抄袭的结论，神经网络可以借助工具来搭建，只需要一份典型的训练样本训练即可使此网络具有抄袭检测的能力。