CN106648636A - 一种基于图挖掘的软件函数变更预测系统及方法 - Google Patents

一种基于图挖掘的软件函数变更预测系统及方法 Download PDF

Info

Publication number
CN106648636A
CN106648636A CN201611122377.XA CN201611122377A CN106648636A CN 106648636 A CN106648636 A CN 106648636A CN 201611122377 A CN201611122377 A CN 201611122377A CN 106648636 A CN106648636 A CN 106648636A
Authority
CN
China
Prior art keywords
function
change
excavated
relationship graph
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611122377.XA
Other languages
English (en)
Other versions
CN106648636B (zh
Inventor
王雷
王新晨
李涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201611122377.XA priority Critical patent/CN106648636B/zh
Publication of CN106648636A publication Critical patent/CN106648636A/zh
Application granted granted Critical
Publication of CN106648636B publication Critical patent/CN106648636B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种基于图挖掘的软件函数变更预测系统及方法,属于软件工程领域。本发明基于软件网络函数调用关系图进行计算,首先需要获取整个函数调用关系图,通过对相邻版本的函数进行比较获得修改、删除、新增的函数,并得到变更函数子图,利用图挖掘算法gspan,选择参数,主要是跨度和支持度,得到相应的频繁子图,子图所包含的函数就是预测的可能发生变更的函数。

Description

一种基于图挖掘的软件函数变更预测系统及方法
技术领域
本发明涉及一种基于图挖掘的软件函数变更预测系统及方法,属于复杂网络和数据分析及软件工程领域。
背景技术
复杂网络经常伴随着信息、病毒、疾病等的传播,而一个网络的拓扑结构对于变更传播的程度有着显著的影响。在计算机科学领域,大型软件系统中的类图、依赖图、关系图、软件组件图、函数调用图都属于复杂网络。
当开发者为了加入一个新功能或者修复一个BUG的时,对软件系统一个部分作出修改后,其他的部分为了适应修改,常常也需要进行更新。量化一个软件网络的传播性有助于节省软件维护产生的开销。
在函数调用关系图中,变更传播通常都是单方向的,函数A调用函数B,当B发生修改时,A因为接口需要作出调整因此很可能需要相应作出修改,这叫B传播到A,但当A发生修改时,B一般就不需要作出修改了。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。针对半结构化数据的研究已经成为近年来国内外数据挖掘领域的研究热点,而目前国内的研究热点主要集中在文本数据挖掘等领域,针对图的数据挖掘研究才刚刚开始。与一般的数据比较,图能够表达更加丰富的语义,在科学研究和许多商业领域有着更为广泛的应用。同时,这种丰富的语义也增加了数据结构的复杂性和挖掘令人感兴趣的图的子结构的难度。因此,需要综合应用图论知识与数据挖掘的各种技术。图的数据挖掘主要是从图的数据库中找到大于最小支持度的频繁子图。
基于贪心策略的频繁子图挖掘是频繁子图挖掘领域最先发展起来的技术之一,其中最著名的是SUBDUE算法。SUBDUE算法基于最小描述长度原则(minimum descriptionlength,MDL)来发现子结构。严格来说,其所谓的频繁与之后我们介绍的频繁子图的概念有所不同。其所指的某个子结构“频繁”是用MDL原则评定的,而不是单纯指其出现的频率高。
对于许多挖掘和学习问题来说,描述关系通常比描述属性更能得出简洁且精确的规则。与之相对应的,一阶谓词逻辑在很多情况下的表现也优于命题逻辑。而且,图可以比较容易的使用一阶逻辑来表示。对基于ILP的方法而言,其优点不局限于发现知识,还可以在知识归纳中运用正反例。或者说,其目标是归纳出一个可正确分类的正样本集和负样本集的规则集。是故,归纳逻辑编程(Inductive Logic Programming,ILP)被提出而应用在频繁子图的搜索上。其优点在于大多算法能找出出现频率高的子图,且能作为交好的类识别器。但其缺点在于不能保证发现所有的频繁子图。1998年Dehaspe基于ILP提出可对频繁子图进行完全挖掘的WARMR算法,其算法核心思想与Apriori算法类似。
比较遗憾的是,基于ILP的算法由于需要图结构对一些特别的特征和谓词实例进行预特征化,故仅能发现有限特征的子结构,无法发现所有的频繁子图。而且虽然其在后续发展中结合了分层搜索以最小化对数据库的访问,效率有了极大的提升,但是,其搜索所需空间仍就很大。由此A.Inokuchi等人最先提出了基于Apriori思想的频繁子结构挖掘算法。(AGM算法)
FSG是AGM算法的一种改进。同基于Apriori的方法一样,其采用了分级扩展的方法。但优化之处在于:其采用了相对稀疏的图表示方法,来最小化存储空间和计算开销。每次添加一条边来扩大频繁子图的大小,由此使得生成候选集更有效。采用了对小图更有效的规范标签和图同构算法。其对生成候选集进行了各种优化并统计了能适用于大规模的图数据库的优化措施。
AGM和FSG算法都采用了基于Apriori逐层推进的方法。而这种Apriori模式的算法会遇到两个瓶颈:从k阶频繁子图构造k+1阶频繁子图相当复杂且代价昂贵,同时子图同构测试是一个NPC问题,所以处理误报的代价也是极其昂贵。为了解决这些问题,Xifeng Yan提出了gSpan(graph-based Substructure pattern mining)算法,通过对图进行深度优先搜索遍历来发现频繁子图。gSpan算法由于解决了模式的算法所遇到的两个瓶颈,大幅提高了效率并降低了空间消耗,同时避免发生产生冗余候选频繁子图的情况。
在图数据集中进行模式挖掘的过程中,实际上会遇到诸多相当棘手的问题,诸如子图同构检测。这些问题在图数据中通常意味着远超于其他数据结构的昂贵的时间代价。由此,一种新的频繁子图挖掘算法算法快速频繁子图挖掘(Fast Frequent SubgraphMining,FFSM)被提出。FFSM采用了垂直搜索模式,最终能减少产生的冗余候选子图。
频繁子图挖掘技术在发展过程中,由基于贪心策略的SUBDUE算法到基于ILP的方法,再到A.Inokuchi等人提出了基于Apriori思想的AGM算法,频繁子图的效率逐步提升。FSG算法对AGM算法作出了图的表示形式以及生成候选频繁子图过程的优化,提升了效率并降低了开销,但是其效果并不十分明显。直到基于模式增长的方法——gSpan算法被提出,开创性的结合了DFS搜索,并定义了DFS序列来减少冗余频繁子图的生成,大幅提高了效率并降低了空间消耗。而FFSM算法为了解决基于Apriori思想的算法会面临的两个挑战做出了相应的对策,通过解决潜在的子图同构问题并减少冗余候选子图的生成,也大大提升了效率。
综上,现有的图挖掘技术存在如睛问题:(1)现有图挖掘技术主要还是集中在物理、化学、网络领域。没有涉及到函数变更预测上。(2)现有的图挖掘技术由于要找出所有频繁子图,所以时间开销特别大。(3)由于图挖掘技术找出所有频繁子图,所以数据量特别大,对于后续处理也带来很大麻烦。
发明内容
本发明的技术解决问题:克服现有技术的不足,提供一种基于图挖掘的软件函数变更预测系统及方法,具有时间开销低、数据量小的特点,并且挖掘效果很好,挖掘出的预测函数在下个版本发生变更的数目与总数的比值大于80%。
本发明技术解决方案:
一种基于图挖掘的软件函数变更预测系统,包括函数调用关系图生成模块、变更函数调用关系图获取模块、图挖掘及变更函数预测模块,其中:
函数调用关系图生成模块:根据需要处理相应的软件网络,生成相应软件网络的函数调用关系图;
变更函数调用关系图获取模块:对相邻版本的函数源码比较,得到变更函数,在已生成的函数调用关系图中,去掉没有变更的函数,得到每个相邻版本源代码的变更函数调用关系图;
图挖掘及变更函数预测模块:利用得到的变更函数调用关系图,通过图挖掘算法,输入参数,再得到挖掘结果,并输出预测函数。
所述函数调用关系图生成模块实现过程如下:
(1)选择需要处理相应的软件网络,包括操作系统软件源代码,然后调用外部工具cdepn,对于所有.c文件,生成相应的cdepn文件;
(2)对于生成的.cdepn文件,逐行读取文件,当每一行第一个字符为F时,表示该行函数为call函数,之后的所有开头第一个字符为C的行的直到文件尾或者下一个开头第一个字符为F的行为止,包含在里面的函数都被该函数调用,按照此方法则生成相应整个软件网络的函数调用关系图。
所述变更函数调用关系图获取模块实现过程如下:
(1)利用ctags获取每个函数在相邻版本中的被定义位置,函数定义总是以‘{’开始,最终以‘}’结束,利用此原理,从函数开始行开始,利用栈的数据结构,去掉注释语句,每读到‘{’入栈,读到‘}’出栈,直到栈为空,这时候的行数为该函数的结束行。按照此方法得到函数被定义的结束行,然后提取各函数在相邻版本的源代码,利用diff命令,比较代码是否发生改变,如果是则是变更函数;
(2)得到变更函数后,利用变更函数,对源代码的函数调用关系图进行筛选,去掉没有变更过的函数,剩下的就是变更函数调用关系图。
所述图挖掘及变更函数预测模块实现过程如下:
(1)设定参数,包括最小支持度,以及单次挖掘的相邻版本子图数,即跨度,利用修改过的gspan算法进行挖掘,如下:
1)首先逐条边读取一定数量的连续版本变更函数子图,对于每条边,记录出现次数,读取完毕后,去掉出现次数低于支持度的边;
2)剩余边具有以下属性:(x,x1,y,y1,e),x为调用函数的编号,x1是该函数的权值,y是被调用函数的编号,y1是该函数权值,e是该条边的编号,以上五个属性都是数字,按照从左到右优先级顺序对所有边按照属性值比较从低到高进行排序,得到最小DFS编码,从记录的第一个函数开始,按照最小DFS编码的边的顺序,从小到大进行扩展,不断加入新的边,直到得到完整的频繁变更子图;
(2)利用挖掘出的频繁变更子图,得到频繁变更函数即挖掘结果,并作为输出的预测函数。
一种基于图挖掘的软件函数变更预测方法,实现步骤如下:
第一步,生成函数调用关系图,根据需要处理相应的软件网络,生成相应软件网络的函数调用关系图;
第二步,获取变更函数,根据已生成的函数调用关系图,去掉图中所有没有发生变更的函数,得到每个相邻版本源代码的变更函数调用关系图;
第三步,图挖掘及变更函数预测,利用得到的变更函数调用关系图,通过图挖掘算法,输入参数,得到挖掘结果,并输出预测函数。
所述第一步,具体如下:
在Linux下配置工具生成cdepn图,并通过脚本处理进而生成callpah,具体如下:(1)配置Codeviz工具;(2)编写脚本遍历目录为所有.c文件生成cdepn文件;(3)编写代码,利用cdepn文件生成该软件网络的函数调用关系图。
所述第二步,具体过程如下:
步骤2.1、利用ctags可以对某个.c文件下所有的函数进行检索,并输出该函数的起始行,编写脚本,递归遍历Linux内核代码下所有.c文件生成相应的.c文件;
步骤2.2、函数定义总是以‘{’开始,最终以‘}’结束,利用此原理,从函数开始行开始,利用栈的数据结构,去掉注释语句,每读到‘{’入栈,读到‘}’出栈,直到栈为空,这时候的行数为该函数的结束行;
步骤2.3、得到起始行后,利用shell命令,sed可以读取指定行之间的内容,通过diff命令,比较相邻版本间同名函数,可以知道该函数是被修改、被增加或者被删除;
步骤2.4、在得到相邻版本间的变更函数后,在之前生成的函数调用关系图中,去掉没有发生变更的函数,得到相邻版本变更函数调用关系图。
所述第三步,具体过程如下:
步骤3.1、设定参数,包括最小支持度及单次挖掘的相邻版本子图数,即跨度,所述跨度是单次挖掘的相邻版本子图数,本发明主要采用了跨度为3、5、7、10四个值作为参数,每次选取N个相邻版本子图作为挖掘数据源;所述最小支持度是指设定最小支持度a,表示选取N个版本时,挖掘出的子图在这N个版本中出现次数S比上N,S/N>=a,本发明采用支持度0.4、0.6、0.8、1作为候选参数;
步骤3.2、利用编写的gspan算法代码,进行挖掘,得到频繁子图,其中支持度大于设定值的函数即为下个版本的预测结果。
本发明的优点与积极效果在于:本发明利用图挖掘进行变更函数预测属于领域内创新,并且挖掘效果很好。
本发明与现有技术相比的优点在于:
(1)本发明首次将图挖掘技术用在函数变更预测领域,属于领域创新,具有时间开销低、数据量小的特点,并且挖掘效果很好,挖掘出的预测函数在下个版本发生变更的数目与总数的比值大于80%。
(2)本发明采用gspan算法,并根据软件网络没有同名结点的特点,对gspan算法进行优化,统计的是最大频繁变更子图,原gspan算法不仅统计最大频繁变更子图,也统计了子图的子图,因此时间复杂度从2^n降低到了n^2。
(3)本发明优化了gspan算法,挖掘结果只会输出最大频繁变更子图,而不是现有的算法将最大频繁变更子图所有子集输出,对于后续处理更加容易。
附图说明
图1为本发明系统的结构框图;
图2为图1中函数调用关系图生成模块的实现流程图;
图3为图1中变更函数调用关系图获取模块的实现流程图;
图4为图1中图挖掘及变更函数预测模块的实现流程图;
图5为cdepn文件格式。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
在叙述之前,要对本发明涉及的技术和术语进行一下说明。
Codeviz,graphviz,ctags,sed是Linux下的第三方工具,在命令行输入sudo apt-get install工具名命令可以直接安装。
cdepn文件是利用安装好的codeviz和graphviz后,针对待处理源代码文件下的.c文件生成的相应的名字为*.cdepn文件,文件格式如图5所示。
Shell命令是Linux自带的命令行编辑器,用于处理各种常用操作。
如图1所示,本发明包括函数调用关系图生成模块、变更函数调用关系图获取模块和图挖掘及变更函数预测模块。
如图2所示,本发明中函数调用关系图生成模块具体实现如下:
(1)扫描源代码下未处理过的源代码文件,生成对应的cdepn文件;
(2)所有源代码处理完毕后,逐行读取所有cdepn文件,逐行读取文件,当读到开头为F时,表示该行函数为call函数,之后的所有开头为C的行的直到文件尾或者下一个F开头行为止,包含在里面的函数都被该函数调用,按照此方法生成整个软件网络的调用关系图。
如图3所示,本发明中变更函数调用关系图获取模块具体实现如下:
(1)利用Linux工具ctags,输入源代码下的源文件,得到该文件下所有函数被定义的起始行以及所在文件路径。
(2)函数定义总是以‘{’开始,最终以‘}’结束,利用此原理,从函数开始行开始,利用栈的数据结构,去掉注释语句,每读到‘{’入栈,读到‘}’出栈,直到栈为空,这时候的行数为该函数的结束行。
(3)使用Linux的diff命令,比较相邻版本函数源代码是否发生变更。
(4)去掉函数调用关系图中没有发生变更的函数,剩下的图就是变更函数调用关系图。并作为结果输出。
如图4所示,本发明中图挖掘及变更函数预测模块具体实现如下:
(1)设定挖掘参数,最小支持度和跨度。
最小支持度:设定最小支持度a,表示选取N个版本时,挖掘出的子图在这N个版本中出现次数S比上N,S/N>=a。本发明采用支持度0.4、0.6、0.8、1作为候选参数。
跨度:单次挖掘的相邻版本子图数,本发明主要采用了跨度为3、5、7、10四个值作为参数,每次选取N个相邻版本子图作为挖掘数据源。
(2)利用gspan算法进行挖掘,输出结果是挖掘出的频繁变更子图。
(3)提取挖掘出的频繁变更子图中的所有函数,作为结果输出。
本发明方法,具体为如下步骤。
第一步、获得函数调用图:
在Linux下配置工具生成cdepn图,并通过脚本处理进而生成callpah。基本的思路如下:(1)配置Codeviz等工具;(2)编写脚本遍历目录为所有.c文件生成cdepn文件;(3)编写代码,利用cdepn文件生成该网络的函数调用关系图。
步骤1.1、配置工具。
首先安装graphviz和CodeViz
使用配置好的工具递归编译待处理源代码下所有*.c文件,会相应地生成一个*.c.cdepn文件。
步骤1.2、执行脚本生成函数调用关系图。
利用编写的代码生成函数调用关系图,对于生成的.cdepn文件,逐行读取文件,当读到开头为F时,表示该行函数为call函数,之后的所有开头为C的行的直到文件尾或者下一个F开头行为止,包含在里面的函数都被该函数调用,按照此方法生成整个软件网络的调用关系图。
第二步、通过相邻版本函数调用图获得变更函数,包括:
步骤2.1、部署ctags,利用ctags得到每个函数在源代码中定义的起始行;
利用sudo apt-get install ctags安装ctags;
ctags可以对某个.c文件下所有的函数进行检索,并输出该函数被定义的起始行。编写脚本,递归遍历Linux内核代码下所有.c文件生成相应的.c文件。
步骤2.2、利用模式匹配,得到每个函数的结束行;
函数定义总是以‘{’开始,最终以‘}’结束,利用此原理,从函数开始行开始,利用栈的数据结构,去掉注释语句,每读到‘{’入栈,读到‘}’出栈,知道栈为空,这时候的行数为该函数的结束行。
步骤2.3、利用相邻版本函数的起始行,结束行,提取出源代码,进行比较,得到修改、增加、删除的函数。
得到起始行后,利用shell命令,sed可以读取指定行之间的内容,通过diff命令,比较相邻版本间同名函数,可以知道该函数是被修改、被增加或者被删除。
步骤2.4、得到发生修改函数的子图,及变更函数子图;
通过变更函数集合,在原内核生成的call graph上进行筛选,得到的子图即为变更函数的子图。
第三步、利用图挖掘算法gspan,设定参数,得到频繁子图,输出结果;
步骤3.1、设定参数,主要有最小支持度,还有单次挖掘的相邻版本子图数,即跨度。
跨度,单次挖掘的相邻版本子图数,本发明主要采用了跨度为3、5、7、10四个值作为参数,每次选取N个相邻版本子图作为挖掘数据源。
最小支持度,设定最小支持度a,表示选取N个版本时,挖掘出的子图在这N个版本中出现次数S比上N,S/N>=a。本发明采用支持度0.4、0.6、0.8、1作为候选参数。
步骤3.2、利用编写的代码,进行挖掘,得到频繁子图。其中支持度大于设定值的函数即为下个版本的预测结果。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (8)

1.一种基于图挖掘的软件函数变更预测系统,其特征在于:包括函数调用关系图生成模块、变更函数调用关系图获取模块、图挖掘及变更函数预测模块,其中:
函数调用关系图生成模块:根据需要处理相应的软件网络,生成相应软件网络的函数调用关系图;
变更函数调用关系图获取模块:对相邻版本的函数源码比较,得到变更函数,在已生成的函数调用关系图中,去掉没有变更的函数,得到每个相邻版本源代码的变更函数调用关系图;
图挖掘及变更函数预测模块:利用得到的变更函数调用关系图,通过图挖掘算法,输入参数,再得到挖掘结果,并输出预测函数。
2.根据权利要求1所述的基于图挖掘的软件函数变更预测系统,其特征在于:所述函数调用关系图生成模块实现过程如下:
(1)选择需要处理相应的软件网络,包括操作系统软件源代码,然后调用外部工具cdepn,对于所有.c文件,生成相应的cdepn文件;
(2)对于生成的.cdepn文件,逐行读取文件,当每一行第一个字符为F时,表示该行函数为call函数,之后的所有开头第一个字符为C的行的直到文件尾或者下一个开头第一个字符为F的行为止,包含在里面的函数都被该函数调用,按照此方法则生成相应整个软件网络的函数调用关系图。
3.根据权利要求1所述的基于图挖掘的软件函数变更预测系统,其特征在于:所述变更函数调用关系图获取模块实现过程如下:
(1)利用ctags获取每个函数在相邻版本中的被定义位置,函数定义总是以‘{’开始,最终以‘}’结束,利用此原理,从函数开始行开始,利用栈的数据结构,去掉注释语句,每读到‘{’入栈,读到‘}’出栈,直到栈为空,这时候的行数为该函数的结束行。按照此方法得到函数被定义的结束行,然后提取各函数在相邻版本的源代码,利用diff命令,比较代码是否发生改变,如果是则是变更函数;
(2)得到变更函数后,利用变更函数,对源代码的函数调用关系图进行筛选,去掉没有变更过的函数,剩下的就是变更函数调用关系图。
4.根据权利要求1所述的基于图挖掘的软件函数变更预测系统,其特征在于:所述图挖掘及变更函数预测模块实现过程如下:
(1)设定参数,包括最小支持度,以及单次挖掘的相邻版本子图数,即跨度,利用修改过的gspan算法进行挖掘,如下:
1)首先逐条边读取一定数量的连续版本变更函数子图,对于每条边,记录出现次数,读取完毕后,去掉出现次数低于支持度的边;
2)剩余边具有以下属性:(x,x1,y,y1,e),x为调用函数的编号,x1是该函数的权值,y是被调用函数的编号,y1是该函数权值,e是该条边的编号,以上五个属性都是数字,按照从左到右优先级顺序对所有边按照属性值比较从低到高进行排序,得到最小DFS编码,从记录的第一个函数开始,按照最小DFS编码的边的顺序,从小到大进行扩展,不断加入新的边,直到得到完整的频繁变更子图;
(2)利用挖掘出的频繁变更子图,得到频繁变更函数即挖掘结果,并作为输出的预测函数。
5.一种基于图挖掘的软件函数变更预测方法,其特征在于实现步骤如下:
第一步,生成函数调用关系图,根据需要处理相应的软件网络,生成相应软件网络的函数调用关系图;
第二步,获取变更函数,根据已生成的函数调用关系图,去掉图中所有没有发生变更的函数,得到每个相邻版本源代码的变更函数调用关系图;
第三步,图挖掘及变更函数预测,利用得到的变更函数调用关系图,通过图挖掘算法,输入参数,得到挖掘结果,并输出预测函数。
6.根据权利要求5所述的一种基于图挖掘的软件函数变更预测方法,其特征在于:所述第一步,具体如下:
在Linux下配置工具生成cdepn图,并通过脚本处理进而生成callpah,具体如下:(1)配置Codeviz工具;(2)编写脚本遍历目录为所有.c文件生成cdepn文件;(3)编写代码,利用cdepn文件生成该软件网络的函数调用关系图。
7.根据权利要求5所述的一种基于图挖掘的软件函数变更预测方法,其特征在于:所述第二步,具体过程如下:
步骤2.1、利用ctags可以对某个.c文件下所有的函数进行检索,并输出该函数的起始行,编写脚本,递归遍历Linux内核代码下所有.c文件生成相应的.c文件;
步骤2.2、函数定义总是以‘{’开始,最终以‘}’结束,利用此原理,从函数开始行开始,利用栈的数据结构,去掉注释语句,每读到‘{’入栈,读到‘}’出栈,直到栈为空,这时候的行数为该函数的结束行;
步骤2.3、得到起始行后,利用shell命令,sed可以读取指定行之间的内容,通过diff命令,比较相邻版本间同名函数,知道该函数是被修改、被增加或者被删除;
步骤2.4、在得到相邻版本间的变更函数后,在之前生成的函数调用关系图中,去掉没有发生变更的函数,得到相邻版本变更函数调用关系图。
8.根据权利要求5所述的一种基于图挖掘的软件函数变更预测方法,其特征在于:所述第三步,具体过程如下:
步骤3.1、设定参数,包括最小支持度及单次挖掘的相邻版本子图数,即跨度,所述跨度是单次挖掘的相邻版本子图数,本发明主要采用了跨度为3、5、7、10四个值作为参数,每次选取N个相邻版本子图作为挖掘数据源;所述最小支持度是指设定最小支持度a,表示选取N个版本时,挖掘出的子图在这N个版本中出现次数S比上N,S/N>=a,本发明采用支持度0.4、0.6、0.8、1作为候选参数;
步骤3.2、利用编写的gspan算法代码,进行挖掘,得到频繁子图,其中支持度大于设定值的函数即为下个版本的预测结果。
CN201611122377.XA 2016-12-08 2016-12-08 一种基于图挖掘的软件函数变更预测系统及方法 Expired - Fee Related CN106648636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611122377.XA CN106648636B (zh) 2016-12-08 2016-12-08 一种基于图挖掘的软件函数变更预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611122377.XA CN106648636B (zh) 2016-12-08 2016-12-08 一种基于图挖掘的软件函数变更预测系统及方法

Publications (2)

Publication Number Publication Date
CN106648636A true CN106648636A (zh) 2017-05-10
CN106648636B CN106648636B (zh) 2020-01-03

Family

ID=58820214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611122377.XA Expired - Fee Related CN106648636B (zh) 2016-12-08 2016-12-08 一种基于图挖掘的软件函数变更预测系统及方法

Country Status (1)

Country Link
CN (1) CN106648636B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110716739A (zh) * 2019-09-19 2020-01-21 平安科技(深圳)有限公司 一种代码变更信息统计方法、系统和可读存储介质
CN110780897A (zh) * 2019-08-26 2020-02-11 华为技术有限公司 一种代码变更方法以及装置
CN112099838A (zh) * 2019-06-17 2020-12-18 腾讯科技(深圳)有限公司 确定版本差异的方法、装置及存储介质
CN113744886A (zh) * 2020-05-27 2021-12-03 中国科学院软件研究所 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102099781A (zh) * 2009-05-19 2011-06-15 松下电器产业株式会社 分支预测装置、其分支预测方法、编译器、其编译方法及分支预测程序记录介质
US20130143561A1 (en) * 2011-11-17 2013-06-06 Intucell Ltd. Method and system for optimizing cellular networks operation
CN104536882A (zh) * 2014-11-28 2015-04-22 南京大学 基于频繁子图挖掘的错误定位方法
CN105159715A (zh) * 2015-09-01 2015-12-16 南京大学 一种基于抽象语法树节点变更抽取的Python代码变更提示方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102099781A (zh) * 2009-05-19 2011-06-15 松下电器产业株式会社 分支预测装置、其分支预测方法、编译器、其编译方法及分支预测程序记录介质
US20130143561A1 (en) * 2011-11-17 2013-06-06 Intucell Ltd. Method and system for optimizing cellular networks operation
CN104536882A (zh) * 2014-11-28 2015-04-22 南京大学 基于频繁子图挖掘的错误定位方法
CN105159715A (zh) * 2015-09-01 2015-12-16 南京大学 一种基于抽象语法树节点变更抽取的Python代码变更提示方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112099838A (zh) * 2019-06-17 2020-12-18 腾讯科技(深圳)有限公司 确定版本差异的方法、装置及存储介质
CN112099838B (zh) * 2019-06-17 2023-08-15 腾讯科技(深圳)有限公司 确定版本差异的方法、装置及存储介质
CN110780897A (zh) * 2019-08-26 2020-02-11 华为技术有限公司 一种代码变更方法以及装置
CN110716739A (zh) * 2019-09-19 2020-01-21 平安科技(深圳)有限公司 一种代码变更信息统计方法、系统和可读存储介质
CN113744886A (zh) * 2020-05-27 2021-12-03 中国科学院软件研究所 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统
CN113744886B (zh) * 2020-05-27 2024-03-19 中国科学院软件研究所 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统

Also Published As

Publication number Publication date
CN106648636B (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
CN106648636A (zh) 一种基于图挖掘的软件函数变更预测系统及方法
CN106250372A (zh) 一种用于电力系统的中文电力数据文本挖掘方法
US20050216496A1 (en) Using tables to learn trees
CN113312268A (zh) 一种智能合约代码相似检测方法
CN118114758A (zh) 一种基于知识图谱驱动语义治理方案动态生成方法及系统
CN112905380A (zh) 一种基于自动化监控日志的系统异常检测方法
Phan et al. Automatically classifying source code using tree-based approaches
CN116305158A (zh) 一种基于切片代码依赖图语义学习的漏洞识别方法
Paul et al. Database workload characterization with query plan encoders
CN115437952A (zh) 一种基于深度学习的语句级软件缺陷检测方法
Maes et al. Structured prediction with reinforcement learning
Liu et al. Prompt Learning for Multi-Label Code Smell Detection: A Promising Approach
CN111026862B (zh) 一种基于形式概念分析技术的增量式实体摘要方法
CN103870489A (zh) 基于搜索日志的中文人名自扩展识别方法
Wang et al. SInC: Semantic approach and enhancement for relational data compression
Lasek et al. Density-based clustering with constraints
CN116385787A (zh) 一种用于ui零碎图层的图层处理方法及装置
Hashimoto et al. Extracting facts from performance tuning history of scientific applications for predicting effective optimization patterns
Danger et al. Generating complex ontology instances from documents
Zojaji et al. Semantic schema modeling for genetic programming using clustering of building blocks
CN117435246B (zh) 一种基于马尔可夫链模型的代码克隆检测方法
Mishra et al. Data mining techniques for software quality prediction
CN106775695B (zh) 一种基于边不稳定性的软件函数变更预测系统及方法
Trollmann et al. Formalizing model consistency based on the abstract syntax
Mojzeš et al. Feature space for statistical classification of Java source code patterns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200103

Termination date: 20211208