CN107967152A - 基于最小分支路径函数胎记的软件局部抄袭证据生成方法 - Google Patents

基于最小分支路径函数胎记的软件局部抄袭证据生成方法 Download PDF

Info

Publication number
CN107967152A
CN107967152A CN201711322531.2A CN201711322531A CN107967152A CN 107967152 A CN107967152 A CN 107967152A CN 201711322531 A CN201711322531 A CN 201711322531A CN 107967152 A CN107967152 A CN 107967152A
Authority
CN
China
Prior art keywords
path
function
fun
similarity
ins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711322531.2A
Other languages
English (en)
Other versions
CN107967152B (zh
Inventor
刘烃
徐茜
佟菲菲
刘欣宇
郑庆华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201711322531.2A priority Critical patent/CN107967152B/zh
Publication of CN107967152A publication Critical patent/CN107967152A/zh
Priority to PCT/CN2018/120179 priority patent/WO2019114673A1/zh
Application granted granted Critical
Publication of CN107967152B publication Critical patent/CN107967152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/75Structural analysis for program understanding
    • G06F8/751Code clone detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种基于最小分支路径函数胎记的软件局部抄袭证据生成方法,通过对程序进行逆向分析,提取出程序的静态信息;基于函数的控制流图、基本块、指令序列等,提取基于最小分支路径的函数胎记,以表征函数的行为特征;计算函数胎记之间的相似度,从而得到函数之间的相似性;基于函数间的相似度,结合函数调用图,构建出最优相似子图集,将其作为程序间局部抄袭的判断依据和有力的抄袭证据,为真实的软件侵权案件提供初步证据。

Description

基于最小分支路径函数胎记的软件局部抄袭证据生成方法
技术领域
本发明涉及程序特征发现及软件抄袭检测领域,特别涉及一种软件局部抄袭证据生成的方法。
背景技术
随着计算机软件产业迅速发展,软件的安全问题得到了越来越多的研究人员、教育人员及软件企业的重视。而开源软件的出现,更是将软件抄袭问题推到了风头浪尖。近年来,各类软件侵权案件时有发生,Verizon、eBay、Apple等公司都曾卷入相关案件当中。
为了对抗软件抄袭,保护软件知识产权,国内外的研究人员提出了大量的软件抄袭检测技术。以应用场景和技术手段作为基准,可将现有的软件抄袭检测技术归为三类:源码抄袭检测技术,基于软件水印的抄袭检测技术,以及基于软件胎记的抄袭检测技术。
但是,目前的软件抄袭检测技术存在一系列的局限性:
1)目前大部分具有权威性的软件抄袭检测方法是针对源代码的,而在现实中,软件所有者通常是以二进制文件的形式发布软件,软件源代码在未取得一定的证据之前是很难获取;
2)抄袭者为了躲避软件抄袭检测,通常使用成熟、强力的代码混淆技术和工具,使得抄袭程序与原程序在表面上呈现很大的不同,使得一部分软件抄袭检测方法失效;
3)相较于整体抄袭,局部抄袭更为普遍,一方面是因为局部抄袭更容易符合抄袭者的要求,更加灵活,另一方面也因为使得计算出的软件与原版本之间的整体相似度较低,从而导致许多整体检测方法失效。
4)现有的抄袭检测都只是提供一个简单的结果,没有具体且有力的抄袭证据作为佐证。
发明内容
本发明的目的在于提出一种基于最小分支路径函数胎记的软件局部抄袭证据生成方法,以应对当前的软件抄袭检测的需要。本发明通过对程序进行逆向分析,提取出程序的静态信息;基于函数的控制流图、基本块、指令序列等,提取基于最小分支路径的函数胎记,以表征函数的行为特征;计算函数胎记之间的相似度,从而得到函数之间的相似性;基于函数间的相似度,结合函数调用图,构建出最优相似子图集,将其作为程序间局部抄袭的判断依据和有力的抄袭证据,为真实的软件侵权案件提供初步证据。
为了实现上述目的,本发明采用以下技术方案:
基于最小分支路径函数胎记的软件局部抄袭证据生成方法,包括如下步骤:
步骤S101:基于反汇编技术,对原告程序P及被告程序Q对应的可执行二进制文件进行反汇编,记录并分析生成的汇编代码,对于其包含的静态信息进行预处理并以数据表的形式存储;
步骤S102:基于程序的函数内静态控制流图,将一个分支的起始基本块到下一个分支的起始基本块之间的基本块所包含的指令序列作为函数的一条最小分支路径,一个函数Fid的函数胎记FBid是其所有最小分支路径构成的集合PATH={pathid,i|i=0,1,…n},提取原告程序P与被告程序Q内所有函数对应的函数胎记PB={FBi|i=0,1,…,m1}以及QB={FBj'|j=0,1,…,m2};n为函数胎记FBid的所有最小分支路径的个数,m1和m2分别为原告程序P与被告程序Q中所有函数胎记的个数;
步骤S103:基于原告程序P内的所有函数胎记,计算其对于被告程序Q内的所有函数的函数胎记相似度SIM(FBi,FBj'),FBi∈PB&&FBj'∈QB;
步骤S104:基于函数间的相似度以及函数间调用图,发现相似子图集,构建最优相似子图集;
步骤S105:基于最优相似子图集,进行抄袭判定,如存在抄袭,生成抄袭证据。根据最优相似子图集的规模大小,并与原程序规模作比较从而判断程序是否存在抄袭,而生成的最优相似子图集则可作为被告程序Q抄袭原告程序P的抄袭证据。如果存在抄袭,将步骤S104获得的最优相似子图集输出作为抄袭证据。
进一步的,所述步骤S101具体为使用逆向分析工具来撤除编译和汇编过程,输入为机器语言,输出结果为汇编语言;对原告及被告程序P,Q对应的二进制可执行文件进行反汇编,对反汇编后输出的汇编代码进行分析,对程序包含的静态信息进行预处理,删除库函数以及过小的函数,得到有效的函数信息,以数据表的形式记录存储,存储方式如下表所示;
表名 表结构
Functions address#name#type
BasicBlocks id#parent_function#adress
BasicBlocks_Instructions basicblock_id#instruction_address
Instructions address#mnemonic
Operands address#expression_tree_id
Expression_Tree_Nodes expression_tree_id#expression_node_id
Expression_Nodes id#type#symbol#immediate#parent_id
Control_Flow_Graphs id#parent_function#source#destination
Callgraph id#source#destination
所述静态信息具体包括:基本块,函数,指令,助记符,操作数,函数内静态控制流图以及函数间调用图;
所述过小的函数为指令数小于3的函数。
进一步的,步骤S102中基于最小分支路径的函数胎记FBid即最小分支路径集合PATH的提取方法是基于函数的静态控制流图,对函数内的每一个基本块bid进行分析,如果该基本块的分支大于等于2或该基本块为所属函数的起始基本块,则提取以该基本块为起点的所有最小分支路径集合PATHid={pathid,i|i=0,1,…,m},并将该集合加入所属函数胎记集合,PATH=PATH∪PATHid,m为以基本块bid为起点的所有最小分支路径的个数。
进一步的,步骤S102中提取基本块bid的最小分支路径的方法是为其每一个分支创建一条以bid为起点的路径pathid,i,对于每一条路径,将其后继基本块不断加入该路径中,直至遇到下一个分支,则该路径经过的基本块内的汇编指令构成了该最小分支路径,这些路径的集合PATHid即为以该基本块为起点的所有最小分支路径。
进一步的,步骤S102中提取基本块中汇编指令的方法是:首先读取汇编指令的助记符,接着读取该汇编指令对应的操作数的表达树id,根据表达树id读取对应的节点id,从而读取节点id对应的符号或立即数,遍历该表达树的各个节点,得到操作数,最后将助记符与操作数组合,得到该汇编指令的表达形式。
进一步的,步骤S103中函数胎记之间相似度的计算方法是:令原告程序P中的函数Fun_1的胎记FB1与被告程序Q中函数Fun_2的胎记FB2'分别表示为PATH1={path1,i|i=0,1,…,a},PATH2={path2,j|j=0,1,…,b},a为函数Fun_1的函数胎记的所有最小分支路径的个数;b为函数Fun_2的函数胎记的所有最小分支路径的个数;对于PATH1中的每一条路径path1,i,计算其与PATH2中每一条路径path2,j的相似度,基于这些相似度,寻找与path1,i最匹配的路径path2,match,并记录其相似度sim(path1,i,path2,match);基于Fun_1的静态信息,以路径中包含的汇编指令个数li为权值,进行加权计算,从而得到函数胎记FB1与函数胎记FB2之间的相似度,计算公式为:
式中:
li——函数Fun_1中第i条最小分支路径包含的汇编指令的个数;
则函数之间的相似度SIM(Fun_1,Fun_2)=SIM(FB1,FB2')。
进一步的,步骤S103中路径path1,i与path2,j之间相似度的计算方法分为四个步骤,分别是预处理,校准路径,基于助记符和操作数关联的汇编指令相似值计算,以及路径相似度计算;具体如下:
a)预处理:预处理的方法是首先删除路径中所包含的跳转指令,接着将操作数抽象化;操作数抽象化是指将构成路径的指令中的具体操作数抽象为三类:寄存器,存储单元以及变量名,分别用REG,MEM,VAL来表示;
b)校准路径:校准路径的方法是使用LCS算法,以相同的助记符作为基准,对要进行相似性计算的两条路径path1,i,path2,j进行校准;校准后的两条路径为path1,i',path2,j',这两条路径汇编指令的数目是相同的,同时对应位置上的汇编指令的助记符也是相同的;
c)基于助记符和操作数关联的汇编指令相似值计算:令校准后的路径path1,i',path2,j'表示为path1,i'=<ins1,ins2,…,insn>,path2,j'=<ins1',ins2',…,insn'>,其中,n为每条路径的汇编指令的数目。计算path1,i',path2,j'之间的相似值,首先计算对应位置的汇编指令inspos,inspos'之间的相似值,计算方法为对应位置的相同操作数的个数:
sim_ins(inspos,inspos')=|{i|args(inspos)[i]=args(inspos')[i]}|
式中:
inspos,inspos'——两条汇编指令;
args(inspos)[i]——汇编指令inspos的第i个操作数;
d)路径相似度计算:将path1,i'中汇编指令的相似值相加,得到path1,i',path2,j'之间的相似值score(path1,i',path2,j');采用相同的方法,得到path1,i,path2,j与其自身的相似值score(path1,i,path1,i)与score(path2,j,path2,j);最后,进行标准化,得到路径path1,i,path2,j之间的相似度;
进一步的,步骤S104中,相似子图是指以函数为节点,函数的调用关系为边,对应节点相似度较高且对相似的函数有相同的调用关系的子图;最优相似子图是指,对每个子图基于节点数目、对应节点相似值和节点权重赋予一个分数,分数最高的子图为该子图的最优相似子图;最优相似子图集是指每次加入一个最优相似子图所得到的集合{G1→G1',G2→G2',...,Gn→Gn'},G1,G2,...Gn属于原告程序P,G1',G2',...Gn'属于被告程序Q,且G1,G2,...Gn不相交,G1',G2',...Gn'不相交;Gi→Gi'为一个相似子图,其中i=1,2,…n。
进一步的,步骤S104中最优相似子图集发现的方法是:
1)筛选出相似度大于阈值ε1的相似函数对:
FF={(Fun_i,Fun_j)|Fun_i∈P&&Fun_j∈Q&&SIM(Fun_i,Fun_j)>ε1};
2)基于函数间调用图,生成FF的相似子图集G,并计算每个子图的分数S;
子图分数S是指子图中所有函数对的相似度的和,计算公式为:
式中,n为子图中所有函数对的数目;
3)提取最优相似子图Gb,记录其分数Sb,并入最优相似子图集;
4)如果最优相似子图的分数大于ε2,更新FF,将目前最优相似子图集中包含的函数对从FF中移除,FF=FF-{(Fun_i,Fun_j)|Fun_i∈Gb||Fun_j∈Gb},并跳转至步骤2);否则,结束,并输出当前的最优相似子图集;
其中阈值ε1的取值为0.5~1;ε2的取值大于1小于第一个提取的最优相似子图Gb的分数Sb
进一步的,步骤S104中生成FF的相似子图集G的方法是:
2.1)将FF={ffi|i=0,1,…,n}中的第一个函数对ff0作为一个子图加入子图集G中;G={{ff0}};n为FF中函数对的个数;
2.2)从ffi,i=1开始,遍历FF,对于ffi
a)遍历子图集G={Gj|j=0,1,…,m};m为子图集G中的子图个数;
b)如果ffi与Gj不冲突,且基于函数调用图,对于ffi,存在Gj中的函数对与其符合调用关系,则G=G∪{Gj∪{ffi}};
2.3)将函数对ffi作为一个子图加入子图集G中,G=G∪{{ffi}};
2.4)输出相似子图集G;
步骤S104中判断一个函数对ffi=(Fun_i,Fun_i')是否与子图Gj冲突的方法是:如果存在ff=(Fun,Fun')∈Gj,使得Fun_i=Fun且Fun_i'≠Fun',或Fun_i'=Fun'且Fun_i≠Fun,则函数对ffi与子图Gj冲突。
本发明的进一步改进在于:步骤S102具体包括以下步骤:
步骤S201:初始化最小分支路径的集合以及计数器id=0;
步骤S202:从函数内静态控制流图中读取基本块bid的内容;
步骤S203:判断是否计数器id==0或bid的分支数目大于等于2,若是,则转入步骤S204,否则转入步骤S206;
步骤S204:提取以基本块bid为起点的所有最小分支路径集合PATHid={pathid,i|i=0,1,…,m},并将该集合加入所属函数胎记集合,PATH=PATH∪PATHid;m为以基本块bid为起点的所有最小分支路径的个数;
步骤S205:判断是否计数器id==n,若是,则转入步骤S207,否则转入步骤S206;
步骤S206:计数器id++,并转入步骤S202进行下一轮的分析;
步骤S207:输出最小分支路径的集合PATH作为函数F的函数胎记FB。
本发明的进一步改进在于:步骤S102具体包括以下步骤:
步骤S301:输入基本块bid及其m+1个后继基本块bid,0,bid,1,...bid,m
步骤S302:初始化bid的最小分支路径的集合以及计数器i=0;
步骤S303:为其后继基本块bid,i创建一条以bid为起点的路径pathid,i,pathid,i=bid+bid,i
步骤S304:创建指针pt指向当前后继基本块bid,i,pt→bid,i
步骤S305:判断指针pt指向的基本块是否有且只有一个后继基本块pt.bs,若是,则转入步骤S306,否则转入步骤S307;
步骤S306:将后继基本块pt.bs加入路径pathid,i中,pathid,i=pathid,i+pt.bs,指针pt指向其后继基本块pt.bs,pt→pt.bs,并转入步骤S305进行下一轮的分析;
步骤S307:将当前路径pathid,i并入bid的最小分支路径的集合PATHid来,PATHid=PATHid∪{pathid,i},计数器i++;
步骤S308:判断是否计数器i>m,若是,则转入步骤S309,否则转入步骤S303进行下一轮的分析;
步骤S309:输出基本块bid的所有最小分支路径集合PATHid
本发明的进一步改进在于:步骤S103具体包括以下步骤:
步骤S401:初始化计数器i=0;
步骤S402:从函数Fun_1的函数胎记PATH1={path1,i|i=0,1,…,a}中读取最小分支路径path1,i;a为函数Fun_1的函数胎记的所有最小分支路径的个数;
步骤S403:读取函数Fun_2的函数胎记PATH2={path2,j|j=0,1,…,b},计算path1,i与PATH2中每一条路径path2,j的相似度;b为函数Fun_2的函数胎记的所有最小分支路径的个数;
步骤S404:寻找与path1,i最匹配的路径path2,match,并记录其相似度sim(path1,i,path2,match),存入路径间相似度矩阵SIM_Path中,SIM_Path=[sim(path1,i,path2,match)],i=0,1,…,a;
步骤S405:判断是否计数器i==a,若是,则转入步骤S407,否则转入步骤S406;
步骤S406:计数器i++,并转入步骤S402进行下一轮的分析;
步骤S407:基于路径间相似度矩阵SIM_Path以及从函数胎记PATH1中读取的Fun_1的静态信息,以路径中包含的汇编指令个数li为权值,进行加权计算,计算公式为:
式中:
li——函数Fun_1中第i条最小分支路径包含的汇编指令的个数;
步骤S408:输出函数Fun_1与函数Fun_2之间的相似度SIM(Fun_1,Fun_2)=SIM(FB1,FB2'),并存入函数间相似度矩阵SIM_Fun中,SIM_Fun=[SIM(Fun_i,Fun_j)],i=0,1,…,m1,j=0,1,…,m2
本发明的进一步改进在于:步骤S103中路径path1,i与path2,j之间相似度的计算方法可分为四个步骤,分别是预处理,校准路径,基于助记符和操作数关联的汇编指令相似值计算,以及路径相似度计算。具体包括以下步骤:
步骤S501:输入最小分支路径path1,i与path2,j
步骤S502:对路径path1,i和path2,j进行预处理,首先删除路径中所包含的跳转指令(包括JE、JNE、JZ、JNZ、JS、JNS、JC、JNC、JO、JNO、JA、JNA、JAE、JNAE、JG、JNG、JGE、JNGE、JB、JNB、JBE、JNBE、JL、JNL、JLE、JNLE、JP、JNP、JPE、JPO等跳转指令);接着抽象化操作数,将构成路径的指令中的具体操作数抽象为三类:寄存器,存储单元以及变量名,分别用REG,MEM,VAL来表示;
步骤S503:使用LCS算法校准路径,以相同的助记符作为基准,对要进行相似性计算的两条路径path1,i,path2,j进行校准。校准后的两条路径为path1,i',path2,j',这两条路径汇编指令的数目是相同的,同时对应位置上的汇编指令的助记符也是相同的;
步骤S504:基于助记符和操作数关联的汇编指令相似值计算,令校准后的路径path1,i',path2,j'表示为path1,i'=<ins1,ins2,…,insn>,path2,j'=<ins1',ins2',…,insn'>,其中,n为每条路径的汇编指令的数目。计算path1,i',path2,j'之间的相似值,首先计算对应位置的汇编指令inspos,inspos'之间的相似值,计算方法为取对应位置的相同操作数的个数,令inspos,inspos'表示两条汇编指令,args(inspos)[i]表示汇编指令inspos的第i个操作数,计算公式为:
sim(inspos,inspos')=|{i|args(inspos)[i]=args(inspos')[i]}|
式中:
inspos,inspos'——两条汇编指令;
args(inspos)[i]——汇编指令inspos的第i个操作数;
步骤S505:进行路径相似度计算,将path1,i'中汇编指令的相似值相加,得到path1,i',path2,j'之间的相似值score(path1,i',path2,j'),计算公式为采用相同的方法,得到path1,i,path2,j与其自身的相似值score(path1,i,path1,i)与score(path2,j,path2,j)。最后,进行标准化,得到路径path1,i,path2,j之间的相似度:
步骤S506:输出最小分支路径path1,i与path2,j间的相似度sim(path1,i,path2,j)。
本发明的进一步改进在于:步骤S104中最优相似子图集发现的方法具体包括以下步骤:
步骤S601:输入阈值ε1和ε2,ε1用于筛选相似函数对,ε2用于判断是否可以结束循环;其中阈值ε1的取值为0.5~1;ε2的取值大于1小于第一个提取的最优相似子图Gb的分数Sb
步骤S602:基于函数间相似度矩阵SIM_Fun,筛选出相似度大于一定阈值ε1的相似函数对FF:
FF={(Fun_i,Fun_j)|Fun_i∈P&&Fun_j∈Q&&SIM(Fun_i,Fun_j)>ε1};
步骤S603:基于函数间调用图,生成FF的相似子图集G,并计算子图分数S;
子图分数S是指子图中所有函数对的相似度的和,计算公式为:
式中,n为子图中所有函数对的数目;
步骤S604:提取最优相似子图Gb,记录其分数Sb,将其并入最优相似子图集;
步骤S605:判断是否当前最优相似子图集的分数Sb2,若是,则转入步骤S606,否则转入步骤S607;
步骤S606:更新FF,将目前最优相似子图集中包含的函数对从FF中移除,FF=FF-{(Fun_i,Fun_j)|Fun_i∈Gb||Fun_j∈Gb},并跳转至步骤S603进行下一轮的分析;
步骤S607:输出当前的最优相似子图集。
本发明的进一步改进在于:步骤S104中生成FF的相似子图集G的方法具体包括以下步骤:
步骤S701:输入相似函数对集合FF={ffi|i=0,1,…,n};n为FF中函数对的个数;
步骤S702:将FF={ffi|i=0,1,…,n}中的第一个函数对ff0作为第一个子图加入子图集,初始化相似子图集G={{ff0}}和计数器i=1;
步骤S703:遍历子图集G={Gj|j=0,1,…,m},初始化计数器j=1;m为子图集G中的子图个数;
步骤S704:判断ffi是否与Gj冲突,若是,则转入步骤S707,否则转入步骤S705;
步骤S705:基于函数调用图,判断对于ffi,是否存在Gj中的函数对与其符合调用关系,若是,则转入步骤S706,否则转入步骤S707;
步骤S706:将ffi加入图Gj组成的子图加入子图集G中,G=G∪{Gj∪{ffi}};
步骤S707:判断是否计数器j==m,若是,则转入步骤S709,否则转入步骤S708;
步骤S708:计数器j++,并转入步骤S704进行下一轮的分析;
步骤S709:将函数对ffi作为一个子图加入子图集G中,G=G∪{{ffi}};
步骤S710:判断是否计数器i==n,若是,则转入步骤S712,否则转入步骤S711;
步骤S711:计数器i++,并转入步骤S703进行下一轮的分析;
步骤S712:输出当前相似子图集G。
本发明的进一步改进在于:步骤S104中判断一个函数对ffi=(Fun_i,Fun_i')是否与子图Gj冲突的方法是:如果存在ff=(Fun,Fun')∈Gj,使得Fun_i=Fun且Fun_i'≠Fun',或Fun_i'=Fun'且Fun_i≠Fun,则函数对ffi与子图Gj冲突。
相对于现有技术,本发明具有以下有益效果:
1)本发明方法能够直接针对二进制代码,不依赖于源代码,不依赖特定的编程语言或平台,具有更好的适用性;
2)本发明的检测手段可以应对各种各样的成熟、强力的代码混淆技术和工具,提高对深度混淆的检测能力;
3)本发明方法不仅能够应用于整体抄袭的情况,还能够应对局部抄袭的场景;
4)不同于现有的抄袭检测技术,本方法不仅可以提供是否存在抄袭的结果,并且对抄袭情况,可以提供具体且有力的抄袭证据。
附图说明
图1为本发明基于最小分支路径函数胎记的软件局部抄袭证据生成方法整体流程图;
图2为基于最小分支路径的函数胎记提取过程流程图;
图3为基本块的最小分支路径提取过程流程图;
图4为函数间相似度计算方法流程图;
图5为路径间相似度计算方法流程图;
图6为最优相似子图集发现方法流程图;
图7为相似子图集生成过程流程图;
图8为函数的控制流图及其最小分支路径的示意图;其中图8(a)为函数F的控制流图;图8(b)为函数F的所有最小分支路径图;
图9为程序的函数调用图及最优相似子图的示意图;其中图9(a)为程序P函数调用图示意图;图9(b)为程序Q函数调用图示意图;图9(c)为程序P、Q最优相似子图示意图。
具体实施方式
以下结合附图详细说明本发明基于最小分支路径函数胎记的软件局部抄袭证据生成方法的具体实施方式。
图1为基于最小分支路径函数胎记的软件局部抄袭证据生成方法整体处理流程。
本发明一种基于最小分支路径函数胎记的软件局部抄袭证据生成方法,包括以下步骤:
步骤S101:使用逆向分析工具如IDA pro、Binnavi等,实现对原告程序P及被告程序Q对应的可执行二进制代码的反汇编,提取出其包含的静态信息,进行预处理并以数据表的形式存储。
具体而言,提取并分析与基本块,函数,指令,助记符,操作数,函数内静态控制流图以及函数间调用图的有关的静态信息,删除库函数以及指令数小于3的函数,得到有效的函数信息,并对其进行整理与分析,按照下表所示,以数据表的形式记录存储所有数据。
表1:数据表表名及结构
表名 表结构
Functions address#name#type
BasicBlocks id#parent_function#adress
BasicBlocks_Instructions basicblock_id#instruction_address
Instructions address#mnemonic
Operands address#expression_tree_id
Expression_Tree_Nodes expression_tree_id#expression_node_id
Expression_Nodes id#type#symbol#immediate#parent_id
Control_Flow_Graphs id#parent_function#source#destination
Callgraph id#source#destination
步骤S102:基于程序的函数内静态控制流图构建函数胎记,一个函数Fid的函数胎记FBid是其所有最小分支路径构成的集合PATH={pathid,i|i=0,1,…n},提取原告程序P与被告程序Q内所有函数对应的函数胎记PB={FBi|i=0,1,…,m1}以及QB={FBj'|j=0,1,…,m2};n为函数胎记FBid的所有最小分支路径的个数,m1和m2分别为原告程序P与被告程序Q中所有函数胎记的个数。
结合图2,具体而言,将一个分支的起始基本块到下一个分支的起始基本块之间的基本块所包含的指令序列作为函数的一条最小分支路径,基于最小分支路径的函数胎记提取具体包括以下步骤:
步骤S201:初始化最小分支路径的集合以及计数器id=0;
步骤S202:从函数内静态控制流图中读取基本块bid的内容;
步骤S203:判断是否计数器id==0或bid的分支数目大于等于2,若是,则转入步骤S204,否则转入步骤S206;
步骤S204:提取以基本块bid为起点的所有最小分支路径集合PATHid={pathid,i|i=0,1,…,m},并将该集合加入所属函数胎记集合,PATH=PATH∪PATHid;m为以基本块bid为起点的所有最小分支路径的个数;
步骤S205:判断是否计数器id==n,若是,则转入步骤S207,否则转入步骤S206;
步骤S206:计数器id++,并转入步骤S202进行下一轮的分析;
步骤S207:输出最小分支路径的集合PATH作为函数F的函数胎记FB。
其中,提取基本块bid的最小分支路径的方法具体包括以下步骤:
步骤S301:输入基本块bid及其m+1个后继基本块bid,0,bid,1,...bid,m
步骤S302:初始化bid的最小分支路径的集合以及计数器i=0;
步骤S303:为其后继基本块bid,i创建一条以bid为起点的路径pathid,i,pathid,i=bid+bid,i
步骤S304:创建指针pt指向当前后继基本块bid,i,pt→bid,i
步骤S305:判断指针pt指向的基本块是否有且只有一个后继基本块pt.bs,若是,则转入步骤S306,否则转入步骤S307;
步骤S306:将后继基本块pt.bs加入路径pathid,i中,pathid,i=pathid,i+pt.bs,指针pt指向其后继基本块pt.bs,pt→pt.bs,并转入步骤S305进行下一轮的分析;
步骤S307:将当前路径pathid,i并入bid的最小分支路径的集合PATHid来,PATHid=PATHid∪{pathid,i},计数器i++;
步骤S308:判断是否计数器i>m,若是,则转入步骤S309,否则转入步骤S303进行下一轮的分析;
步骤S309:输出基本块bid的所有最小分支路径集合PATHid
例如函数F的控制流图如图8(a)所示,则按照以上步骤可提取出最小分支路径4条如图8(b)所示,构成该函数的函数胎记。
步骤S103:基于原告程序P内的所有函数胎记,计算其对于被告程序Q内的所有函数的函数胎记相似度SIM(FBi,FBj'),FBi∈PB&&FBj'∈QB。其中函数胎记之间相似度的计算方法是:令函数Fun_1的胎记FB1与函数Fun_2的胎记FB2分别表示为PATH1={path1,i|i=0,1,…,a},PATH2={path2,j|j=0,1,…,b},a为函数Fun_1的函数胎记的所有最小分支路径的个数;b为函数Fun_2的函数胎记的所有最小分支路径的个数;对于PATH1中的每一条路径path1,i,计算其与PATH2中每一条路径path2,j的相似度,基于这些相似度,寻找与path1,i最匹配的路径path2,match,并记录其相似度sim(path1,i,path2,match)。基于Fun_1的静态信息,以路径中包含的汇编指令个数li为权值,进行加权计算,从而得到函数胎记FB1与函数胎记FB2之间的相似度SIM(FBi,FBj')。
具体包括以下步骤:
步骤S401:初始化计数器i=0;
步骤S402:从函数Fun_1的函数胎记PATH1={path1,i|i=0,1,…,a}中读取最小分支路径path1,i
步骤S403:读取函数Fun_2的函数胎记PATH2={path2,j|j=0,1,…,b},计算path1,i与PATH2中每一条路径path2,j的相似度;
步骤S404:寻找与path1,i最匹配的路径path2,match,并记录其相似度sim(path1,i,path2,match),存入路径间相似度矩阵SIM_Path中,SIM_Path=[sim(path1,i,path2,match)],i=0,1,…,a;
步骤S405:判断是否计数器i==a,若是,则转入步骤S407,否则转入步骤S406;
步骤S406:计数器i++,并转入步骤S402进行下一轮的分析;
步骤S407:基于路径间相似度矩阵SIM_Path以及从函数胎记PATH1中读取的Fun_1的静态信息,以路径中包含的汇编指令个数li为权值,进行加权计算,计算公式为:
式中:
li——函数Fun_1中第i条最小分支路径包含的汇编指令的个数;
步骤S408:输出函数Fun_1与函数Fun_2之间的相似度SIM(Fun_1,Fun_2)=SIM(FB1,FB2'),并存入函数间相似度矩阵SIM_Fun中,SIM_Fun=[SIM(Fun_i,Fun_j)],i=0,1,…,m1,j=0,1,…,m2
例如函数Fun_1包含路径path1、path2、path3,函数Fun_2包含路径pathA、pathB、pathC,它们两两之间的相似度如下表所示,则路径间相似度矩阵SIM_Path=[0.990.870.86]。
表2:路径相似度举例示意图
相似度 pathA pathB pathC
path1 0.76 0.86 0.99
path2 0.54 0.87 0.18
path3 0.86 0.15 0.47
如果路径path1、path2、path3中包含的汇编指令个数分别为19、25、8,则函数Fun_1与函数Fun_2之间的相似度
其中路径path1,i与path2,j之间相似度的计算方法可分为四个步骤,分别是预处理,校准路径,基于助记符和操作数关联的汇编指令相似值计算,以及路径相似度计算。具体包括以下步骤:
步骤S501:输入最小分支路径path1,i与path2,j
步骤S502:对路径path1,i和path2,j进行预处理,首先删除路径中所包含的跳转指令(包括JE、JNE、JZ、JNZ、JS、JNS、JC、JNC、JO、JNO、JA、JNA、JAE、JNAE、JG、JNG、JGE、JNGE、JB、JNB、JBE、JNBE、JL、JNL、JLE、JNLE、JP、JNP、JPE、JPO等跳转指令);接着抽象化操作数,将构成路径的指令中的具体操作数抽象为三类:寄存器,存储单元以及变量名,分别用REG,MEM,VAL来表示;
步骤S503:使用LCS算法校准路径,以相同的助记符作为基准,对要进行相似性计算的两条路径path1,i,path2,j进行校准。校准后的两条路径为path1,i',path2,j',这两条路径汇编指令的数目是相同的,同时对应位置上的汇编指令的助记符也是相同的;
步骤S504:基于助记符和操作数关联的汇编指令相似值计算,令校准后的路径path1,i',path2,j'表示为path1,i'=<ins1,ins2,…,insn>,path2,j'=<ins1',ins2',…,insn'>,其中,n为每条路径的汇编指令的数目。计算path1,i',path2,j'之间的相似值,首先计算对应位置的汇编指令inspos,inspos'之间的相似值,计算方法为取对应位置的相同操作数的个数,令inspos,inspos'表示两条汇编指令,args(inspos)[i]表示汇编指令inspos的第i个操作数,计算公式为:
sim_ins(inspos,inspos')=|{i|args(inspos)[i]=args(inspos')[i]}|
式中:
inspos,inspos'——两条汇编指令;
args(inspos)[i]——汇编指令inspos的第i个操作数;
步骤S505:进行路径相似度计算,将path1,i'中汇编指令的相似值相加,得到path1,i',path2,j'之间的相似值score(path1,i',path2,j'),计算公式为采用相同的方法,得到path1,i,path2,j与其自身的相似值score(path1,i,path1,i)与score(path2,j,path2,j)。最后,进行标准化,得到路径path1,i,path2,j之间的相似度
步骤S506:输出最小分支路径path1,i与path2,j间的相似度sim(path1,i,path2,j)。
例如路径path1=<(push,ebp),(mov,ebp,esp),(push,ebx),(sub,esp,4h),(cmp,byte ds:[completed.6159],byte 0h),(jnz,loc_8049F6F),(mov,byte ds:[completed.6159],byte 1h)>,path2=(mov,eax,ds:[dtor_idx.6161]),(mov,ebx,__DTOR_END__),(sub,ebx,__DTOR_LIST__),(sar,ebx,byte 2h),(sub,ebx,1h),(cmp,eax,ebx),(jnb,loc_8049F68),(lea,esi,ds:[esi+0h])>,经过预处理可抽象为path1=<(push,REG),(mov,REG,REG),(push,REG),(sub,REG,VAL),(cmp,MEM,VAL),(mov,MEM,VAL)>,path2=(mov,REG,MEM),(mov,REG,VAL),(sub,REG,VAL),(sar,REG,VAL),(sub,REG,VAL),(cmp,REG,REG),(lea,REG,MEM)>,采用LCS算法,以相同的助记符作为基准,校准后的两条路径为path1’=<(mov,REG,REG),(sub,REG,VAL),(cmp,MEM,VAL)>,path2’=(mov,REG,MEM),(sub,REG,VAL),(cmp,REG,REG)>,两条路径对应的指令之间的相似值依次为1、2、0,则校准后路径的相似值为score(path1',path2')=3,最后通过标准化得到路径间的相似值为
步骤S104:基于函数间的相似度以及函数间调用图,发现相似子图集,构建最优相似子图集。首先基于给定的阈值以及函数间的相似度,进行相似函数对的筛选;生成所有相似函数对的的相似子图集,然后从中提取最优相似子图,构建最优相似子图集。
具体描述为:相似子图G1→G1'是指以函数为节点,函数的调用关系为边,对应节点相似度较高且对相似的函数有相同的调用关系的子图。最优相似子图是指,对每个子图基于节点数目、对应节点相似值和节点权重赋予一个分数,分数最高的子图为该子图的最优相似子图。最优相似子图集是指每次加入一个最优相似子图所得到的集合{G1→G1',G2→G2',...,Gn→Gn'},G1,G2,...Gn属于原告程序P,G1',G2',...Gn'属于被告程序Q,且G1,G2,...Gn不相交,G1',G2',...Gn'不相交。
最优相似子图集发现的方法具体包括以下步骤:
步骤S601:输入阈值ε1和ε2,ε1用于筛选相似函数对,ε2用于判断是否可以结束循环;其中阈值ε1的取值为0.5~1;ε2的取值大于1小于第一个提取的最优相似子图Gb的分数Sb
步骤S602:基于函数间相似度矩阵SIM_Fun,筛选出相似度大于一定阈值ε1的相似函数对FF:
FF={(Fun_i,Fun_j)|Fun_i∈P&&Fun_j∈Q&&SIM(Fun_i,Fun_j)>ε1};
步骤S603:基于函数间调用图,生成FF的相似子图集G,并计算子图分数S;
子图分数S是指子图中所有函数对的相似度的和,计算公式为:
式中,n为子图中所有函数对的数目;
步骤S604:提取最优相似子图Gb,记录其分数Sb,将其并入最优相似子图集;
步骤S605:判断是否当前最优相似子图集的分数Sb2,若是,则转入步骤S606,否则转入步骤S607;
步骤S606:更新FF,将目前最优相似子图集中包含的函数对从FF中移除,FF=FF-{(Fun_i,Fun_j)|Fun_i∈Gb||Fun_j∈Gb},并跳转至步骤S603进行下一轮的分析;
步骤S607:输出当前的最优相似子图集。
其中生成FF的相似子图集G的方法具体包括以下步骤:
步骤S701:输入相似函数对集合FF={ffi|i=0,1,…,n};n为FF中函数对的个数;
步骤S702:将FF={ffi|i=0,1,…,n}中的第一个函数对ff0作为第一个子图加入子图集,初始化相似子图集G={{ff0}}和计数器i=1;
步骤S703:遍历子图集G={Gj|j=0,1,…,m},初始化计数器j=1;m为子图集G中的子图个数;
步骤S704:判断ffi是否与Gj冲突(判断方法是:如果存在ff=(Fun,Fun')∈Gj,使得Fun_i=Fun且Fun_i'≠Fun',或Fun_i'=Fun'且Fun_i≠Fun,则函数对ffi与子图Gj冲突),若是,则转入步骤S707,否则转入步骤S705;
步骤S705:基于函数调用图,判断对于ffi,是否存在Gj中的函数对与其符合调用关系,若是,则转入步骤S706,否则转入步骤S707;
步骤S706:将ffi加入图Gj组成的子图加入子图集G中,G=G∪{Gj∪{ffi}};
步骤S707:判断是否计数器j==m,若是,则转入步骤S709,否则转入步骤S708;
步骤S708:计数器j++,并转入步骤S704进行下一轮的分析;
步骤S709:将函数对ffi作为一个子图加入子图集G中,G=G∪{{ffi}};
步骤S710:判断是否计数器i==n,若是,则转入步骤S712,否则转入步骤S711;
步骤S711:计数器i++,并转入步骤S703进行下一轮的分析;
步骤S712:输出当前相似子图集G。
例如原告程序P与被告程序Q的函数调用图如图9(a)、(b)所示,其中节点代表函数,有向连接线表示的是函数之间的调用关系,通过最优相似子图的提取可得到如图9(c)所示的最优相似子图,左边的函数均属于原告程序P,右边的属于被告程序Q,虚线连接的两个函数就是相似函数对。
步骤S105:基于最优相似子图集,进行抄袭判定,如存在抄袭,生成抄袭证据。
具体描述为:
根据最优相似子图集的规模大小,并与原程序规模作比较从而判断程序是否存在抄袭,而生成的最优相似子图集则可作为被告程序Q抄袭原告程序P的抄袭证据。在实际的应用中,还需要考虑最优相似子图集中所包含的模块是否是功能模块亦或是通用模块等具体问题,如果最优相似子图集中全部为通用模块,则判断不存在抄袭;如果最优相似子图集中存在至少一个功能模块相同,则可以认定存在抄袭;如果存在抄袭,将步骤S104获得的最优相似子图集输出作为抄袭证据。其中,功能模块为原告程序所原创的模块。

Claims (10)

1.基于最小分支路径函数胎记的软件局部抄袭证据生成方法,其特征在于,包括如下步骤:
步骤S101:基于反汇编技术,对原告程序P及被告程序Q对应的可执行二进制文件进行反汇编,记录并分析生成的汇编代码,对于其包含的静态信息进行预处理并以数据表的形式存储;
步骤S102:基于程序的函数内静态控制流图,将一个分支的起始基本块到下一个分支的起始基本块之间的基本块所包含的指令序列作为函数的一条最小分支路径,一个函数Fid的函数胎记FBid是其所有最小分支路径构成的集合PATH={pathid,i|i=0,1,…n},提取原告程序P与被告程序Q内所有函数对应的函数胎记PB={FBi|i=0,1,…,m1}以及QB={FBj'|j=0,1,…,m2};n为函数胎记FBid的所有最小分支路径的个数,m1和m2分别为原告程序P与被告程序Q中所有函数胎记的个数;
步骤S103:基于原告程序P内的所有函数胎记,计算其对于被告程序Q内的所有函数的函数胎记相似度SIM(FBi,FBj'),FBi∈PB&&FBj'∈QB;
步骤S104:基于函数间的相似度以及函数间调用图,发现相似子图集,构建最优相似子图集;
步骤S105:基于最优相似子图集,进行抄袭判定,如存在抄袭,生成抄袭证据。
2.根据权利要求1所述的方法,其特征在于,所述步骤S101具体为使用逆向分析工具来撤除编译和汇编过程,输入为机器语言,输出结果为汇编语言;对原告及被告程序P,Q对应的二进制可执行文件进行反汇编,对反汇编后输出的汇编代码进行分析,对程序包含的静态信息进行预处理,删除库函数以及过小的函数,得到有效的函数信息,以数据表的形式记录存储;
所述静态信息具体包括:基本块,函数,指令,助记符,操作数,函数内静态控制流图以及函数间调用图;
所述过小的函数为指令数小于3的函数。
3.根据权利要求1所述的方法,其特征在于,步骤S102中基于最小分支路径的函数胎记FBid即最小分支路径集合PATH的提取方法是基于函数的静态控制流图,对函数内的每一个基本块bid进行分析,如果该基本块的分支大于等于2或该基本块为所属函数的起始基本块,则提取以该基本块为起点的所有最小分支路径集合PATHid={pathid,i|i=0,1,…,m},并将该集合加入所属函数胎记集合,PATH=PATH∪PATHid,m为以基本块bid为起点的所有最小分支路径的个数。
4.根据权利要求3所述的方法,其特征在于,步骤S102中提取基本块bid的最小分支路径的方法是为其每一个分支创建一条以bid为起点的路径pathid,i,对于每一条路径,将其后继基本块不断加入该路径中,直至遇到下一个分支,则该路径经过的基本块内的汇编指令构成了该最小分支路径,这些路径的集合PATHid即为以该基本块为起点的所有最小分支路径。
5.根据权利要求4所述的方法,其特征在于,步骤S102中提取基本块中汇编指令的方法是:首先读取汇编指令的助记符,接着读取该汇编指令对应的操作数的表达树id,根据表达树id读取对应的节点id,从而读取节点id对应的符号或立即数,遍历该表达树的各个节点,得到操作数,最后将助记符与操作数组合,得到该汇编指令的表达形式。
6.根据权利要求1所述的方法,其特征在于,步骤S103中函数胎记之间相似度的计算方法是:令原告程序P中的函数Fun_1的胎记FB1与被告程序Q中函数Fun_2的胎记FB2'分别表示为PATH1={path1,i|i=0,1,…,a},PATH2={path2,j|j=0,1,…,b},对于PATH1中的每一条路径path1,i,计算其与PATH2中每一条路径path2,j的相似度,基于这些相似度,寻找与path1,i最匹配的路径path2,match,并记录其相似度sim(path1,i,path2,match);基于Fun_1的静态信息,以路径中包含的汇编指令个数li为权值,进行加权计算,从而得到函数胎记FB1与函数胎记FB2的相似度,计算公式为:
<mrow> <mi>S</mi> <mi>I</mi> <mi>M</mi> <mrow> <mo>(</mo> <msub> <mi>FB</mi> <mn>1</mn> </msub> <mo>,</mo> <msup> <msub> <mi>FB</mi> <mn>2</mn> </msub> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>&lt;</mo> <mi>o</mi> </mrow> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> </munderover> <mrow> <mo>(</mo> <mfrac> <msub> <mi>l</mi> <mi>i</mi> </msub> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>&lt;</mo> <mi>o</mi> </mrow> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> </munderover> <msub> <mi>l</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>&amp;times;</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mo>(</mo> <mrow> <msub> <mi>path</mi> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>path</mi> <mrow> <mn>2</mn> <mo>,</mo> <mi>m</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
式中:
li——函数Fun_1中第i条最小分支路径包含的汇编指令的个数;
所述a为函数Fun_1的函数胎记的所有最小分支路径的个数;b为函数Fun_2的函数胎记的所有最小分支路径的个数;
则函数之间的相似度SIM(Fun_1,Fun_2)=SIM(FB1,FB2')。
7.根据权利要求6所述的方法,其特征在于,步骤S103中路径path1,i与path2,j之间相似度的计算方法分为四个步骤,分别是预处理,校准路径,基于助记符和操作数关联的汇编指令相似值计算,以及路径相似度计算;具体如下:
a)预处理:预处理的方法是首先删除路径中所包含的跳转指令,接着将操作数抽象化;操作数抽象化是指将构成路径的指令中的具体操作数抽象为三类:寄存器,存储单元以及变量名,分别用REG,MEM,VAL来表示;
b)校准路径:校准路径的方法是使用LCS算法,以相同的助记符作为基准,对要进行相似性计算的两条路径path1,i,path2,j进行校准;校准后的两条路径为path1,i',path2,j',这两条路径汇编指令的数目是相同的,同时对应位置上的汇编指令的助记符也是相同的;
c)基于助记符和操作数关联的汇编指令相似值计算:令校准后的路径path1,i',path2,j'表示为path1,i'=<ins1,ins2,…,insn>,path2,j'=<ins1',ins2',…,insn'>,其中,n为每条路径的汇编指令的数目;计算path1,i',path2,j'之间的相似值,首先计算对应位置的汇编指令inspos,inspos'之间的相似值,计算方法为对应位置的相同操作数的个数:
sim_ins(inspos,inspos')=|{i|args(inspos)[i]=args(inspos')[i]}|
式中:inspos,inspos'——两条汇编指令;
args(inspos)[i]——汇编指令inspos的第i个操作数;
d)路径相似度计算:将path1,i'中汇编指令的相似值相加,得到path1,i',path2,j'之间的相似值score(path1,i',path2,j');采用相同的方法,得到path1,i,path2,j与其自身的相似值score(path1,i,path1,i)与score(path2,j,path2,j);最后,进行标准化,得到路径path1,i,path2,j之间的相似度;
<mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>path</mi> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <msub> <mi>path</mi> <mrow> <mn>2</mn> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mi>o</mi> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>i</mi> <mi>n</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>ins</mi> <mrow> <mi>p</mi> <mi>o</mi> <mi>s</mi> </mrow> </msub> <mo>,</mo> <msup> <msub> <mi>ins</mi> <mrow> <mi>p</mi> <mi>o</mi> <mi>s</mi> </mrow> </msub> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>path</mi> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>path</mi> <mrow> <mn>2</mn> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>path</mi> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <msub> <mi>path</mi> <mrow> <mn>2</mn> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mn>2</mn> </mrow> <mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>path</mi> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>path</mi> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>path</mi> <mrow> <mn>2</mn> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>path</mi> <mrow> <mn>2</mn> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>
8.根据权利要求1所述的方法,其特征在于,步骤S104中,相似子图是指以函数为节点,函数的调用关系为边,对应节点相似度较高且对相似的函数有相同的调用关系的子图;最优相似子图是指,对每个子图基于节点数目、对应节点相似值和节点权重赋予一个分数,分数最高的子图为该子图的最优相似子图;最优相似子图集是指每次加入一个最优相似子图所得到的集合{G1→G1',G2→G2',...,Gn→Gn'},G1,G2,...Gn属于原告程序P,G1',G2',...Gn'属于被告程序Q,且G1,G2,...Gn不相交,G1',G2',...Gn'不相交;Gi→Gi'为一个相似子图,其中i=1,2,…n。
9.根据权利要求8所述的方法,其特征在于,步骤S104中最优相似子图集发现的方法是:
1)筛选出相似度大于阈值ε1的相似函数对:
FF={(Fun_i,Fun_j)|Fun_i∈P&&Fun_j∈Q&&SIM(Fun_i,Fun_j)>ε1};
2)基于函数间调用图,生成FF的相似子图集G,并计算每个子图的分数S;
子图分数S是指子图中所有函数对的相似度的和,计算公式为:
式中,n为子图中所有函数对的数目;
3)提取最优相似子图Gb,记录其分数Sb,并入最优相似子图集;
4)如果最优相似子图的分数大于ε2,更新FF,将目前最优相似子图集中包含的函数对从FF中移除,FF=FF-{(Fun_i,Fun_j)|Fun_i∈Gb||Fun_j∈Gb},并跳转至步骤2);否则,结束,并输出当前的最优相似子图集;
其中阈值ε1的取值为0.5~1;ε2的取值大于1小于第一个提取的最优相似子图Gb的分数Sb
10.根据权利要求9所述的方法,其特征在于,步骤S104中生成FF的相似子图集G的方法是:
2.1)将FF={ffi|i=0,1,…,n}中的第一个函数对ff0作为一个子图加入子图集G中;G={{ff0}};n为FF中函数对的个数;
2.2)从ffi,i=1开始,遍历FF,对于ffi
a)遍历子图集G={Gj|j=0,1,…,m};m为子图集G中的子图个数;
b)如果ffi与Gj不冲突,且基于函数调用图,对于ffi,存在Gj中的函数对与其符合调用关系,则G=G∪{Gj∪{ffi}};
2.3)将函数对ffi作为一个子图加入子图集G中,G=G∪{{ffi}};
2.4)输出相似子图集G;
步骤S104中判断一个函数对ffi=(Fun_i,Fun_i')是否与子图Gj冲突的方法是:如果存在ff=(Fun,Fun')∈Gj,使得Fun_i=Fun且Fun_i'≠Fun',或Fun_i'=Fun'且Fun_i≠Fun,则函数对ffi与子图Gj冲突。
CN201711322531.2A 2017-12-12 2017-12-12 基于最小分支路径函数胎记的软件局部抄袭证据生成方法 Active CN107967152B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711322531.2A CN107967152B (zh) 2017-12-12 2017-12-12 基于最小分支路径函数胎记的软件局部抄袭证据生成方法
PCT/CN2018/120179 WO2019114673A1 (zh) 2017-12-12 2018-12-11 基于最小分支路径函数胎记的软件局部抄袭证据生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711322531.2A CN107967152B (zh) 2017-12-12 2017-12-12 基于最小分支路径函数胎记的软件局部抄袭证据生成方法

Publications (2)

Publication Number Publication Date
CN107967152A true CN107967152A (zh) 2018-04-27
CN107967152B CN107967152B (zh) 2020-06-19

Family

ID=61994982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711322531.2A Active CN107967152B (zh) 2017-12-12 2017-12-12 基于最小分支路径函数胎记的软件局部抄袭证据生成方法

Country Status (2)

Country Link
CN (1) CN107967152B (zh)
WO (1) WO2019114673A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830049A (zh) * 2018-05-09 2018-11-16 四川大学 一种基于动态控制流图权重序列胎记的软件相似性检测方法
WO2019114673A1 (zh) * 2017-12-12 2019-06-20 西安交通大学 基于最小分支路径函数胎记的软件局部抄袭证据生成方法
CN110083534A (zh) * 2019-04-19 2019-08-02 西安邮电大学 一种基于约减最短路径胎记的软件抄袭检测方法
CN111913718A (zh) * 2020-06-22 2020-11-10 西安交通大学 基于基本块上下文信息的二进制函数差分分析方法
CN112749822A (zh) * 2019-10-30 2021-05-04 北京京东振世信息技术有限公司 一种生成路线的方法和装置
WO2021258789A1 (zh) * 2020-06-22 2021-12-30 深信服科技股份有限公司 一种恶意软件识别的方法、系统、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870721A (zh) * 2014-03-04 2014-06-18 西安交通大学 基于线程切片胎记的多线程软件抄袭检测方法
KR20150051833A (ko) * 2013-11-05 2015-05-13 단국대학교 산학협력단 실행 파일의 부분 정보를 이용한 소프트웨어 불법 복제 및 표절 탐지 방법 및 이를 이용한 장치
CN107169358A (zh) * 2017-05-24 2017-09-15 中国人民解放军信息工程大学 基于代码指纹的代码同源性检测方法及其装置
CN107229563A (zh) * 2016-03-25 2017-10-03 中国科学院信息工程研究所 一种跨架构的二进制程序漏洞函数关联方法
CN107341822A (zh) * 2017-06-06 2017-11-10 东北大学 一种基于最小分支代价聚合的立体匹配方法
CN107357566A (zh) * 2017-06-06 2017-11-17 上海交通大学 多架构二进制相似代码检测系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7363299B2 (en) * 2004-11-18 2008-04-22 University Of Washington Computing probabilistic answers to queries
CN101697121A (zh) * 2009-10-26 2010-04-21 哈尔滨工业大学 一种基于程序源代码语义分析的代码相似度检测方法
CN103577323B (zh) * 2013-09-27 2016-03-30 西安交通大学 基于动态关键指令序列胎记的软件抄袭检测方法
CN107967152B (zh) * 2017-12-12 2020-06-19 西安交通大学 基于最小分支路径函数胎记的软件局部抄袭证据生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150051833A (ko) * 2013-11-05 2015-05-13 단국대학교 산학협력단 실행 파일의 부분 정보를 이용한 소프트웨어 불법 복제 및 표절 탐지 방법 및 이를 이용한 장치
CN103870721A (zh) * 2014-03-04 2014-06-18 西安交通大学 基于线程切片胎记的多线程软件抄袭检测方法
CN107229563A (zh) * 2016-03-25 2017-10-03 中国科学院信息工程研究所 一种跨架构的二进制程序漏洞函数关联方法
CN107169358A (zh) * 2017-05-24 2017-09-15 中国人民解放军信息工程大学 基于代码指纹的代码同源性检测方法及其装置
CN107341822A (zh) * 2017-06-06 2017-11-10 东北大学 一种基于最小分支代价聚合的立体匹配方法
CN107357566A (zh) * 2017-06-06 2017-11-17 上海交通大学 多架构二进制相似代码检测系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田振洲 等: ""软件抄袭检测研究综述"", 《信息安全学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019114673A1 (zh) * 2017-12-12 2019-06-20 西安交通大学 基于最小分支路径函数胎记的软件局部抄袭证据生成方法
CN108830049A (zh) * 2018-05-09 2018-11-16 四川大学 一种基于动态控制流图权重序列胎记的软件相似性检测方法
CN108830049B (zh) * 2018-05-09 2021-07-20 四川大学 一种基于动态控制流图权重序列胎记的软件相似性检测方法
CN110083534A (zh) * 2019-04-19 2019-08-02 西安邮电大学 一种基于约减最短路径胎记的软件抄袭检测方法
CN112749822A (zh) * 2019-10-30 2021-05-04 北京京东振世信息技术有限公司 一种生成路线的方法和装置
CN112749822B (zh) * 2019-10-30 2024-05-17 北京京东振世信息技术有限公司 一种生成路线的方法和装置
CN111913718A (zh) * 2020-06-22 2020-11-10 西安交通大学 基于基本块上下文信息的二进制函数差分分析方法
WO2021258789A1 (zh) * 2020-06-22 2021-12-30 深信服科技股份有限公司 一种恶意软件识别的方法、系统、设备及可读存储介质
CN113901457A (zh) * 2020-06-22 2022-01-07 深信服科技股份有限公司 一种恶意软件识别的方法、系统、设备及可读存储介质
CN111913718B (zh) * 2020-06-22 2022-02-11 西安交通大学 基于基本块上下文信息的二进制函数差分分析方法

Also Published As

Publication number Publication date
WO2019114673A1 (zh) 2019-06-20
CN107967152B (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN107967152B (zh) 基于最小分支路径函数胎记的软件局部抄袭证据生成方法
CN111125716B (zh) 一种以太坊智能合约漏洞检测方法及装置
Alrabaee et al. Oba2: An onion approach to binary code authorship attribution
CN108491228B (zh) 一种二进制漏洞代码克隆检测方法及系统
US20170078327A1 (en) System and method for identifying phishing website
CN104615589A (zh) 训练命名实体识别模型的方法、命名实体识别方法及装置
CN109905385B (zh) 一种webshell检测方法、装置及系统
CN110825363B (zh) 智能合约获取方法、装置、电子设备及存储介质
CN112286575A (zh) 基于图匹配模型的智能合约相似度检测方法及系统
CN110929145A (zh) 舆情分析方法、装置、计算机装置及存储介质
CN111092894A (zh) 一种基于增量学习的webshell检测方法、终端设备及存储介质
CN104408020A (zh) 一种公式解析计算系统及方法
CN110110213A (zh) 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
Zhu et al. Determining image base of firmware files for ARM devices
CN113326187A (zh) 数据驱动的内存泄漏智能化检测方法及系统
CN108399321B (zh) 基于动态指令依赖图胎记的软件局部抄袭检测方法
CN115455382A (zh) 一种二进制函数代码的语义比对方法及装置
CN113536308B (zh) 软件基因视角下多粒度信息融合的二进制代码溯源方法
CN114201756A (zh) 一种智能合约代码片段的漏洞检测方法和相关装置
CN103166942A (zh) 一种恶意代码的网络协议解析方法
CN103440122B (zh) 一种使用逆向扩展控制流图的静态函数识别方法
CN111562943B (zh) 一种基于事件嵌入树及gat网络的代码克隆检测方法和装置
Shah et al. Differential weight based hybrid approach to detect software plagiarism
CN110083534B (zh) 一种基于约减最短路径胎记的软件抄袭检测方法
JP2020060988A (ja) 名称マッチング装置及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant