CN115016795A - 代码相似度的检测方法及装置、处理器和电子设备 - Google Patents

代码相似度的检测方法及装置、处理器和电子设备 Download PDF

Info

Publication number
CN115016795A
CN115016795A CN202210770078.6A CN202210770078A CN115016795A CN 115016795 A CN115016795 A CN 115016795A CN 202210770078 A CN202210770078 A CN 202210770078A CN 115016795 A CN115016795 A CN 115016795A
Authority
CN
China
Prior art keywords
code
data
unit test
dimension
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210770078.6A
Other languages
English (en)
Inventor
严海伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210770078.6A priority Critical patent/CN115016795A/zh
Publication of CN115016795A publication Critical patent/CN115016795A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/43Checking; Contextual analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种代码相似度的检测方法及装置、处理器和电子设备,涉及金融科技领域或其他相关领域。该方法包括:获取第一代码和第二代码,其中,第一代码和第二代码分别为待检测相似度的代码;分别确定第一代码对应的第一单元测试、第二代码对应的第二单元测试、用于检测第一代码和第二代码之间相似度的多个维度和每个维度的权重;在每个维度下,分别执行第一单元测试和第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下第一代码和第二代码之间的相似度;依据多个第一相似度和每个维度的权重,得到第一代码和第二代码之间的目标相似度。通过本申请,解决了相关技术中检测代码相似度的效果较差的问题。

Description

代码相似度的检测方法及装置、处理器和电子设备
技术领域
本申请涉及金融科技领域,具体而言,涉及一种代码相似度的检测方法及装置、处理器和电子设备。
背景技术
目前,在进行编程的工程里,实现的新功能方法(代码)在小部分类中已经引入使用。但是,工程里存在功能类似的方法,从而会导致代码冗余的问题,因此,需要将其替换掉。
相关技术中,相似功能代码检测的方法主要有以下三种类型:
(1)基于文本的检测方法,通过预处理代码块,将空格等除去后将代码转为字符来比较;
(2)基于词法的检测方法,将代码解析为字符串序列然后检测代码中的Token序列,常见的检测算法有LCS、后缀树匹配等;
(3)基于语法的检测方法,通过对代码进行词法和语法分析来构建抽象语法树,然后比较相同或相似的子树。
但是,上述的方法一和方法二不能识别程序的语法语义等信息,会导致检测的准确性较低;而方法三构造语法树的代价比较高,随着检测代码的规模扩大,检测方法的时间和空间复杂度也会比较高,故会导致检测效率会较低。
针对相关技术中检测代码相似度的效果较差的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种代码相似度的检测方法及装置、处理器和电子设备,以解决相关技术中检测代码相似度的效果较差的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种代码相似度的检测方法。该方法包括:获取第一代码和第二代码,其中,所述第一代码和所述第二代码分别为待检测相似度的代码;分别确定所述第一代码对应的第一单元测试、所述第二代码对应的第二单元测试、用于检测所述第一代码和所述第二代码之间相似度的多个维度和每个维度的权重;在每个维度下,分别执行所述第一单元测试和所述第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下所述第一代码和所述第二代码之间的相似度;依据所述多个第一相似度和每个维度的权重,得到所述第一代码和所述第二代码之间的目标相似度。
进一步地,在每个维度下,分别执行所述第一单元测试和所述第二单元测试,得到多个第一相似度包括:在每个维度下,执行所述第一单元测试,得到多个第一数据;对所述多个第一数据中的每个第一数据进行转换处理,得到多个第一向量;在每个维度下,执行所述第二单元测试,得到多个第二数据;对所述多个第二数据中的每个第二数据进行转换处理,得到多个第二向量;依据所述多个第一向量中的每个第一向量和所述多个第二向量中的每个第二向量,得到多个第一相似度。
进一步地,在每个维度下,执行所述第一单元测试,得到多个第一数据包括:在所述多个维度中的第一维度下,执行所述第一单元测试,得到第三数据,其中,所述第三数据用于表示传入所述第一代码的参数的信息;在所述多个维度中的第二维度下,执行所述第一单元测试,得到第四数据,其中,所述第四数据用于表示目标方法的目标信息,所述目标方法为所述第一单元测试和所述第二单元测试中的方法,所述目标信息为以下至少之一:传入所述目标方法的参数的信息、使用所述目标方法得到的预期结果;在所述多个维度中的第三维度下,执行所述第一单元测试,得到第五数据,其中,所述第五数据用于表示在执行所述第一单元测试的过程中,是否存在异常情况;在所述多个维度中的第四维度下,执行所述第一单元测试,得到第六数据,其中,所述第六数据用于表示执行所述第一单元测试得到的结果;在所述多个维度中的第五维度下,执行所述第一单元测试,得到第七数据,其中,所述第七数据用于表示在执行所述第一单元测试的过程中,覆盖所述第一代码的覆盖率;将所述第三数据、所述第四数据、所述第五数据、所述第六数据和所述第七数据进行汇总,得到所述多个第一数据。
进一步地,在每个维度下,执行所述第二单元测试,得到多个第二数据包括:在所述第一维度下,执行所述第二单元测试,得到第八数据,其中,所述第八数据用于表示传入所述第二代码的参数的信息;在所述第二维度下,执行所述第二单元测试,得到第九数据,其中,所述第九数据用于表示所述目标方法的所述目标信息;在所述第三维度下,执行所述第二单元测试,得到第十数据,其中,所述第十数据用于表示在执行所述第二单元测试的过程中,是否存在异常情况;在所述第四维度下,执行所述第二单元测试,得到第十一数据,其中,所述第十一数据用于表示执行所述第二单元测试得到的结果;在所述第五维度下,执行所述第二单元测试,得到第十二数据,其中,所述第十二数据用于表示在执行所述第二单元测试的过程中,覆盖所述第二代码的覆盖率;将所述第八数据、所述第九数据、所述第十数据、所述第十一数据和所述第十二数据进行汇总,得到所述多个第二数据。
进一步地,获取第一代码和第二代码包括:确定在目标工程中正在开发的代码,并将所述正在开发的代码作为所述第一代码;获取所述第一代码在所述目标工程中运行时的第一调用次数和第一返回值;确定所述目标工程中返回值与所述第一返回值相同的第三代码;获取所述第三代码在运行过程中的第二调用次数;依据所述第一调用次数和所述第二调用次数,确定将所述第三代码作为所述第二代码。
进一步地,依据所述第一调用次数和所述第二调用次数,确定将所述第三代码作为所述第二代码包括:计算所述第一调用次数和所述第二调用次数之间的差值;判断所述差值是否大于第一预设值;若所述差值大于所述第一预设值,则确定将所述第三代码作为所述第二代码。
进一步地,在依据所述多个第一相似度和每个维度的权重,得到所述第一代码和所述第二代码之间的目标相似度之后,所述方法还包括:判断所述目标相似度是否小于第二预设值;若所述目标相似度小于所述第二预设值,则对所述第二代码进行替换处理。
为了实现上述目的,根据本申请的另一方面,提供了一种代码相似度的检测装置。该装置包括:第一获取单元,用于获取第一代码和第二代码,其中,所述第一代码和所述第二代码分别为待检测相似度的代码;第一确定单元,用于分别确定所述第一代码对应的第一单元测试、所述第二代码对应的第二单元测试、用于检测所述第一代码和所述第二代码之间相似度的多个维度和每个维度的权重;第一执行单元,用于在每个维度下,分别执行所述第一单元测试和所述第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下所述第一代码和所述第二代码之间的相似度;第二确定单元,用于依据所述多个第一相似度和每个维度的权重,得到所述第一代码和所述第二代码之间的目标相似度。
进一步地,所述第一执行单元包括:第一执行模块,用于在每个维度下,执行所述第一单元测试,得到多个第一数据;第一处理模块,用于对所述多个第一数据中的每个第一数据进行转换处理,得到多个第一向量;第二执行模块,用于在每个维度下,执行所述第二单元测试,得到多个第二数据;第二处理模块,用于对所述多个第二数据中的每个第二数据进行转换处理,得到多个第二向量;第一确定模块,用于依据所述多个第一向量中的每个第一向量和所述多个第二向量中的每个第二向量,得到多个第一相似度。
进一步地,所述第一执行模块包括:第一执行子模块,用于在所述多个维度中的第一维度下,执行所述第一单元测试,得到第三数据,其中,所述第三数据用于表示传入所述第一代码的参数的信息;第二执行子模块,用于在所述多个维度中的第二维度下,执行所述第一单元测试,得到第四数据,其中,所述第四数据用于表示目标装置的目标信息,所述目标装置为所述第一单元测试和所述第二单元测试中的装置,所述目标信息为以下至少之一:传入所述目标装置的参数的信息、使用所述目标装置得到的预期结果;第三执行子模块,用于在所述多个维度中的第三维度下,执行所述第一单元测试,得到第五数据,其中,所述第五数据用于表示在执行所述第一单元测试的过程中,是否存在异常情况;第四执行子模块,用于在所述多个维度中的第四维度下,执行所述第一单元测试,得到第六数据,其中,所述第六数据用于表示执行所述第一单元测试得到的结果;第五执行子模块,用于在所述多个维度中的第五维度下,执行所述第一单元测试,得到第七数据,其中,所述第七数据用于表示在执行所述第一单元测试的过程中,覆盖所述第一代码的覆盖率;第一汇总子模块,用于将所述第三数据、所述第四数据、所述第五数据、所述第六数据和所述第七数据进行汇总,得到所述多个第一数据。
进一步地,所述第二执行模块包括:第六执行子模块,用于在所述第一维度下,执行所述第二单元测试,得到第八数据,其中,所述第八数据用于表示传入所述第二代码的参数的信息;第七执行子模块,用于在所述第二维度下,执行所述第二单元测试,得到第九数据,其中,所述第九数据用于表示所述目标装置的所述目标信息;第八执行子模块,用于在所述第三维度下,执行所述第二单元测试,得到第十数据,其中,所述第十数据用于表示在执行所述第二单元测试的过程中,是否存在异常情况;第九执行子模块,用于在所述第四维度下,执行所述第二单元测试,得到第十一数据,其中,所述第十一数据用于表示执行所述第二单元测试得到的结果;第十执行子模块,用于在所述第五维度下,执行所述第二单元测试,得到第十二数据,其中,所述第十二数据用于表示在执行所述第二单元测试的过程中,覆盖所述第二代码的覆盖率;第二汇总子模块,用于将所述第八数据、所述第九数据、所述第十数据、所述第十一数据和所述第十二数据进行汇总,得到所述多个第二数据。
进一步地,所述第一获取单元包括:第二确定模块,用于确定在目标工程中正在开发的代码,并将所述正在开发的代码作为所述第一代码;第二获取模块,用于获取所述第一代码在所述目标工程中运行时的第一调用次数和第一返回值;第三确定模块,用于确定所述目标工程中返回值与所述第一返回值相同的第三代码;第三获取模块,用于获取所述第三代码在运行过程中的第二调用次数;第四确定模块,用于依据所述第一调用次数和所述第二调用次数,确定将所述第三代码作为所述第二代码。
进一步地,所述第四确定模块包括:第一计算子模块,用于计算所述第一调用次数和所述第二调用次数之间的差值;第一判断子模块,用于判断所述差值是否大于第一预设值;第一确定子模块,用于若所述差值大于所述第一预设值,则确定将所述第三代码作为所述第二代码。
进一步地,所述装置还包括:第一判断单元,用于在依据所述多个第一相似度和每个维度的权重,得到所述第一代码和所述第二代码之间的目标相似度之后,判断所述目标相似度是否小于第二预设值;第一处理单元,用于若所述目标相似度小于所述第二预设值,则对所述第二代码进行替换处理。
为了实现上述目的,根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的任意一项所述的代码相似度的检测方法。
为了实现上述目的,根据本申请的另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的任意一项所述的代码相似度的检测方法。
通过本申请,采用以下步骤:获取第一代码和第二代码,其中,第一代码和第二代码分别为待检测相似度的代码;分别确定第一代码对应的第一单元测试、第二代码对应的第二单元测试、用于检测第一代码和第二代码之间相似度的多个维度和每个维度的权重;在每个维度下,分别执行第一单元测试和第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下第一代码和第二代码之间的相似度;依据多个第一相似度和每个维度的权重,得到第一代码和第二代码之间的目标相似度,解决了相关技术中检测代码相似度的效果较差的问题。通过在每个维度下,分别执行第一代码对应单元测试和第二代码对应的单元测试,得到多个相似度,并依据多个相似度和每个维度的权重,得到第一代码和第二代码之间的相似度,从而可以提升检测代码相似度的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的代码相似度的检测方法的流程图;
图2是根据本申请实施例提供的代码相似度的检测装置的示意图;
图3是根据本申请实施例提供的电子设备的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
单元测试:单元测试又称为模块测试,是针对程序模块来进行正确性检验的测试工作。程序单元是应用的最小可测试部件。在过程化编程中,一个单元就是单个程序、函数、过程等;对于面向对象编程,最小单元就是方法,包括基类(超类)、抽象类、或者派生类(子类)中的方法。
下面结合优选的实施步骤对本发明进行说明,图1是根据本申请实施例提供的代码相似度的检测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取第一代码和第二代码,其中,第一代码和第二代码分别为待检测相似度的代码。
例如,可以从编程的工程中获取需要进行检测相似度的两段代码,即上述的第一代码和第二代码。
步骤S102,分别确定第一代码对应的第一单元测试、第二代码对应的第二单元测试、用于检测第一代码和第二代码之间相似度的多个维度和每个维度的权重。
例如,分别找到两个代码所对应的单元测试,再确定出用于检测两个代码之间相似度的多个维度和每个维度的权重。比如,上述的多个维度可以为代码的传入参数的信息、使用单元测试中的方法得到的结果信息、单元测试的执行过程中是否存在异常、执行单元测试得到的结果和执行单元测试时的覆盖率。
步骤S103,在每个维度下,分别执行第一单元测试和第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下第一代码和第二代码之间的相似度。
例如,可以在上述的每个维度下,分别执行两个代码对应的单元测试,并得到在每个维度下两个代码之间的相似度。
步骤S104,依据多个第一相似度和每个维度的权重,得到第一代码和第二代码之间的目标相似度。
例如,对在每个维度下两个代码之间的相似度和每个维度的权重进行计算,得到最终的两个代码之间的相似度。
通过上述的步骤S101至S104,通过在每个维度下,分别执行第一代码对应单元测试和第二代码对应的单元测试,得到多个相似度,并依据多个相似度和每个维度的权重,得到第一代码和第二代码之间的相似度,从而可以提升检测代码相似度的效果。
为了快速的检测代码之间的相似度,如何获取第一代码和第二代码也是关键点之一,在本申请实施例提供的代码相似度的检测方法中,对获取第一代码和第二代码进行了进一步限定,获取第一代码和第二代码可以采用以下技术特征实现:确定在目标工程中正在开发的代码,并将正在开发的代码作为第一代码;获取第一代码在目标工程中运行时的第一调用次数和第一返回值;确定目标工程中返回值与第一返回值相同的第三代码;获取第三代码在运行过程中的第二调用次数;依据第一调用次数和第二调用次数,确定将第三代码作为第二代码。
例如,在工程中运行新的功能方法,并记录新方法在运行过程中的调用次数以及返回值,然后再查找与新方法返回值相同的方法,再比较新方法在运行过程中的调用次数和查找到的与新方法返回值相同的方法的调用次数,最后确定将与新方法返回值相同的方法作为待检测相似度的方法,即检测新方法和与新方法返回值相同的方法之间的相似度。
通过上述的方案,根据工程中的方法的返回值,可以快速准确的确定待与新方法比较相似度的方法。
为了快速的检测代码之间的相似度,如何确定第二代码也是关键点之一,在本申请实施例提供的代码相似度的检测方法中,对如何依据第一调用次数和第二调用次数,确定将第三代码作为第二代码进行了进一步限定,依据第一调用次数和第二调用次数,确定将第三代码作为第二代码可以采用以下技术特征实现:计算第一调用次数和第二调用次数之间的差值;判断差值是否大于第一预设值;若差值大于第一预设值,则确定将第三代码作为第二代码。
例如,如果新方法在工程中的调用次数和与新方法返回值相同的方法的调用次数相差悬殊,则比较新方法和与新方法返回值相同的方法之间的相似度。具体步骤可以为,先计算新方法在工程中的调用次数和与新方法返回值相同的方法的调用次数之间的差值为10,且上述的第一预设值可以设定为5,当判断出调用次数的差值10大于第一预设值5时,则比较新方法和与新方法返回值相同的方法之间的相似度。
通过上述的方案,根据工程中的方法的调用次数,可以快速准确的确定待与新方法比较相似度的方法。
为了快速准确的得到多个第一数据,在本申请实施例提供的代码相似度的检测方法中,还可以通过以下步骤得到多个第一数据:在多个维度中的第一维度下,执行第一单元测试,得到第三数据,其中,第三数据用于表示传入第一代码的参数的信息;在多个维度中的第二维度下,执行第一单元测试,得到第四数据,其中,第四数据用于表示目标方法的目标信息,目标方法为第一单元测试和第二单元测试中的方法,目标信息为以下至少之一:传入目标方法的参数的信息、使用目标方法得到的预期结果;在多个维度中的第三维度下,执行第一单元测试,得到第五数据,其中,第五数据用于表示在执行第一单元测试的过程中,是否存在异常情况;在多个维度中的第四维度下,执行第一单元测试,得到第六数据,其中,第六数据用于表示执行第一单元测试得到的结果;在多个维度中的第五维度下,执行第一单元测试,得到第七数据,其中,第七数据用于表示在执行第一单元测试的过程中,覆盖第一代码的覆盖率;将第三数据、第四数据、第五数据、第六数据和第七数据进行汇总,得到多个第一数据。
例如,分别对新的代码块和找到的代码块绘制基于单元测试运行结果的代码画像,主要从以下5个方面进行描绘:
(1)参数:对应源代码块的传入参数个数、传入参数类型(个数,类型1,类型2,类型3...);
(2)方法:Mock方法(一种单元测试中的方法)传入参数的个数、类型以及预期得到的结果(参数,类型,预期结果);
(3)异常:单元测试执行过程中得到的异常(异常1,异常2);
(4)结果:单元测试执行得到的结果(结果1,结果2);
(5)覆盖率:源代码块的单元测试执行覆盖率(覆盖率)。
比如,方法1可以为:
(1)方法名:checkId(String name);
(2)返回值类型:Boolean;
(3)实现过程:首先通过传入的name调用appService类中的getId方法得到id信息;然后定义特殊字符集"[`~!@#$%^&*()+=|{}':;'\\[\\]<>/?~!@#¥%……&*——+|{}【】‘;:”“’。,、?]";再分别定义Pattern p和Matcher m,然后直接返回m.find()的值,实际为判断是否包含特殊字符。
另外,方法1的单元测试主要有以下两个:
(1)Mock appService的getId方法Return("1")不包含特殊字符,然后传入1,返回flag为true;
(2)Mock appService的getId方法Return(";;1")包含特殊字符,然后传入1,返回flag为false。
然后,针对以上5个方面,对方法1进行数据描绘,如表1所示。
表1
Figure BDA0003726987920000091
通过上述的方案,可以在多个维度下,对工程中运行的新方法进行数据描绘,从而为后续得到两个代码之间的相似度做铺垫。
为了快速准确的得到多个第二数据,在本申请实施例提供的代码相似度的检测方法中,还可以通过以下步骤得到多个第二数据:在第一维度下,执行第二单元测试,得到第八数据,其中,第八数据用于表示传入第二代码的参数的信息;在第二维度下,执行第二单元测试,得到第九数据,其中,第九数据用于表示目标方法的目标信息;在第三维度下,执行第二单元测试,得到第十数据,其中,第十数据用于表示在执行第二单元测试的过程中,是否存在异常情况;在第四维度下,执行第二单元测试,得到第十一数据,其中,第十一数据用于表示执行第二单元测试得到的结果;在第五维度下,执行第二单元测试,得到第十二数据,其中,第十二数据用于表示在执行第二单元测试的过程中,覆盖第二代码的覆盖率;将第八数据、第九数据、第十数据、第十一数据和第十二数据进行汇总,得到多个第二数据。
例如,方法2可以为:
(1)方法名:checkString(String str);
(2)返回值类型:Boolean;
(3)实现过程:首先通过传入的name调用appService类中的getId方法得到id信息;再定义特殊字符集"[`~!@#$%^&*()+=|{}':;'\\[\\]<>/?~!@#¥%……&*——+|{}【】‘;:”“’。,、?]";然后分别定义Pattern p和Matcher m,先获取m.find()的值,然后判断值为true则返回true,否则返回false。
另外,方法2的单元测试主要有以下两个:
(1)Mock appService的getId方法Return("1")不包含特殊字符,然后传入1,返回flag为true;
(2)Mock appService的getId方法Return(";1")包含特殊字符,然后传入1,返回flag为false。
然后,针对以上5个方面,对方法2进行数据描绘,如表1所示。
通过上述的方案,可以在多个维度下,对与新方法进行相似度检测的方法进行数据描绘,从而为后续得到两个代码之间的相似度做铺垫。
为了快速准确的得到多个第一相似度,在本申请实施例提供的代码相似度的检测方法中,还可以通过以下步骤得到多个第一相似度:在每个维度下,执行第一单元测试,得到多个第一数据;对多个第一数据中的每个第一数据进行转换处理,得到多个第一向量;在每个维度下,执行第二单元测试,得到多个第二数据;对多个第二数据中的每个第二数据进行转换处理,得到多个第二向量;依据多个第一向量中的每个第一向量和多个第二向量中的每个第二向量,得到多个第一相似度。
例如,分别将上述得到的对新方法对应的数据和与新方法进行相似度检测的方法对应的数据转换为向量,即将上述表1中的数据转换为向量,然后可以采用向量间距离计算的方法,综合五个维度的计算进行权重计算,最后得到两个代码之间的相似度。
具体步骤为:
步骤1:将表1中的数据转换为向量表示,如表2所示;
表2
Figure BDA0003726987920000111
步骤2:针对步骤1得到的数据,对五个维度均进行相似度计算(可以使用向量间距离计算的方法),然后综合五个维度的计算进行权重计算,且计算公式如下:
相似度s=w(参数)x0+w(方法)x0.5+w(异常)x0+w(结果)x0+w(覆盖率)x0=0.15。
综上所述,基于单元测试运行的动态检测机制,可以有效降低相似或重复方法查找耗时,并可以提升检测效率。另外,基于单元测试运行的动态检测,可以在无需构造语义语法树的情况下进行检测,即时间和空间复杂度都相对较低。而且,代码块的单元测试的覆盖率高达80%,故利用单元测试运行过程参数以及结果数据比对来进行相似或重复方法的判断,具有更高的准确度。
为了有效解决代码冗余的问题,在本申请实施例提供的代码相似度的检测方法中,还可以通过以下步骤解决代码冗余的问题:在依据多个第一相似度和每个维度的权重,得到第一代码和第二代码之间的目标相似度之后,判断目标相似度是否小于第二预设值;若目标相似度小于第二预设值,则对第二代码进行替换处理。
例如,可以设定如果计算得到的相似度小于0.5(上述的第二预设值),则表示方法功能相似度高。即上述计算得到的相似度为0.15,且小于0.5,故上述的第一代码和第二代码相似度高,并可以判断出以上两个代码是重复或相似功能的代码。然后将上述的第二代码替换掉。
通过上述的方案,利用动态检测机制来进行相似方法的检测判断,并对重复或具有相似功能的代码进行替换,可以有效解决代码冗余的问题。
通过本申请实施例提供的方法,例如,首先根据工程中运行的新代码的返回值,找到与新代码返回值相同的代码,然后再根据新代码的调用次数和与新代码返回值相同的代码的返回次数,确定待与新代码进行相似度检测的代码;再分别从多个维度执行两个代码对应的单元测试,并得到两个代码分别在每个维度下对应的向量数据,然后根据向量数据,得到每个维度下,两个代码之间的相似度;最后再根据每个维度下,两个代码之间的相似度,和每个维度的权重,可以得到最终的两个代码之间的相似度。
综上,本申请实施例提供的代码相似度的检测方法,通过获取第一代码和第二代码,其中,第一代码和第二代码分别为待检测相似度的代码;分别确定第一代码对应的第一单元测试、第二代码对应的第二单元测试、用于检测第一代码和第二代码之间相似度的多个维度和每个维度的权重;在每个维度下,分别执行第一单元测试和第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下第一代码和第二代码之间的相似度;依据多个第一相似度和每个维度的权重,得到第一代码和第二代码之间的目标相似度,解决了相关技术中检测代码相似度的效果较差的问题。通过在每个维度下,分别执行第一代码对应单元测试和第二代码对应的单元测试,得到多个相似度,并依据多个相似度和每个维度的权重,得到第一代码和第二代码之间的相似度,从而可以提升检测代码相似度的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种代码相似度的检测装置,需要说明的是,本申请实施例的代码相似度的检测装置可以用于执行本申请实施例所提供的用于代码相似度的检测方法。以下对本申请实施例提供的代码相似度的检测装置进行介绍。
图2是根据本申请实施例的代码相似度的检测装置的示意图。如图2所示,该装置包括:第一获取单元201、第一确定单元202、第一执行单元203和第二确定单元204。
具体地,第一获取单元201,用于获取第一代码和第二代码,其中,第一代码和第二代码分别为待检测相似度的代码;
第一确定单元202,用于分别确定第一代码对应的第一单元测试、第二代码对应的第二单元测试、用于检测第一代码和第二代码之间相似度的多个维度和每个维度的权重;
第一执行单元203,用于在每个维度下,分别执行第一单元测试和第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下第一代码和第二代码之间的相似度;
第二确定单元204,用于依据多个第一相似度和每个维度的权重,得到第一代码和第二代码之间的目标相似度。
综上,本申请实施例提供的代码相似度的检测装置,通过第一获取单元201获取第一代码和第二代码,其中,第一代码和第二代码分别为待检测相似度的代码;第一确定单元202分别确定第一代码对应的第一单元测试、第二代码对应的第二单元测试、用于检测第一代码和第二代码之间相似度的多个维度和每个维度的权重;第一执行单元203在每个维度下,分别执行第一单元测试和第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下第一代码和第二代码之间的相似度;第二确定单元204依据多个第一相似度和每个维度的权重,得到第一代码和第二代码之间的目标相似度,解决了相关技术中检测代码相似度的效果较差的问题。通过在每个维度下,分别执行第一代码对应单元测试和第二代码对应的单元测试,得到多个相似度,并依据多个相似度和每个维度的权重,得到第一代码和第二代码之间的相似度,从而可以提升检测代码相似度的效果。
可选地,在本申请实施例提供的代码相似度的检测装置中,第一执行单元包括:第一执行模块,用于在每个维度下,执行第一单元测试,得到多个第一数据;第一处理模块,用于对多个第一数据中的每个第一数据进行转换处理,得到多个第一向量;第二执行模块,用于在每个维度下,执行第二单元测试,得到多个第二数据;第二处理模块,用于对多个第二数据中的每个第二数据进行转换处理,得到多个第二向量;第一确定模块,用于依据多个第一向量中的每个第一向量和多个第二向量中的每个第二向量,得到多个第一相似度。
可选地,在本申请实施例提供的代码相似度的检测装置中,第一执行模块包括:第一执行子模块,用于在多个维度中的第一维度下,执行第一单元测试,得到第三数据,其中,第三数据用于表示传入第一代码的参数的信息;第二执行子模块,用于在多个维度中的第二维度下,执行第一单元测试,得到第四数据,其中,第四数据用于表示目标装置的目标信息,目标装置为第一单元测试和第二单元测试中的装置,目标信息为以下至少之一:传入目标装置的参数的信息、使用目标装置得到的预期结果;第三执行子模块,用于在多个维度中的第三维度下,执行第一单元测试,得到第五数据,其中,第五数据用于表示在执行第一单元测试的过程中,是否存在异常情况;第四执行子模块,用于在多个维度中的第四维度下,执行第一单元测试,得到第六数据,其中,第六数据用于表示执行第一单元测试得到的结果;第五执行子模块,用于在多个维度中的第五维度下,执行第一单元测试,得到第七数据,其中,第七数据用于表示在执行第一单元测试的过程中,覆盖第一代码的覆盖率;第一汇总子模块,用于将第三数据、第四数据、第五数据、第六数据和第七数据进行汇总,得到多个第一数据。
可选地,在本申请实施例提供的代码相似度的检测装置中,第二执行模块包括:第六执行子模块,用于在第一维度下,执行第二单元测试,得到第八数据,其中,第八数据用于表示传入第二代码的参数的信息;第七执行子模块,用于在第二维度下,执行第二单元测试,得到第九数据,其中,第九数据用于表示目标装置的目标信息;第八执行子模块,用于在第三维度下,执行第二单元测试,得到第十数据,其中,第十数据用于表示在执行第二单元测试的过程中,是否存在异常情况;第九执行子模块,用于在第四维度下,执行第二单元测试,得到第十一数据,其中,第十一数据用于表示执行第二单元测试得到的结果;第十执行子模块,用于在第五维度下,执行第二单元测试,得到第十二数据,其中,第十二数据用于表示在执行第二单元测试的过程中,覆盖第二代码的覆盖率;第二汇总子模块,用于将第八数据、第九数据、第十数据、第十一数据和第十二数据进行汇总,得到多个第二数据。
可选地,在本申请实施例提供的代码相似度的检测装置中,第一获取单元包括:第二确定模块,用于确定在目标工程中正在开发的代码,并将正在开发的代码作为第一代码;第二获取模块,用于获取第一代码在目标工程中运行时的第一调用次数和第一返回值;第三确定模块,用于确定目标工程中返回值与第一返回值相同的第三代码;第三获取模块,用于获取第三代码在运行过程中的第二调用次数;第四确定模块,用于依据第一调用次数和第二调用次数,确定将第三代码作为第二代码。
可选地,在本申请实施例提供的代码相似度的检测装置中,第四确定模块包括:第一计算子模块,用于计算第一调用次数和第二调用次数之间的差值;第一判断子模块,用于判断差值是否大于第一预设值;第一确定子模块,用于若差值大于第一预设值,则确定将第三代码作为第二代码。
可选地,在本申请实施例提供的代码相似度的检测装置中,该装置还包括:第一判断单元,用于在依据多个第一相似度和每个维度的权重,得到第一代码和第二代码之间的目标相似度之后,判断目标相似度是否小于第二预设值;第一处理单元,用于若目标相似度小于第二预设值,则对第二代码进行替换处理。
代码相似度的检测装置包括处理器和存储器,上述第一获取单元201、第一确定单元202、第一执行单元203和第二确定单元204等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提升检测代码相似度的效果。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述代码相似度的检测方法。
如图3所示,本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取第一代码和第二代码,其中,所述第一代码和所述第二代码分别为待检测相似度的代码;分别确定所述第一代码对应的第一单元测试、所述第二代码对应的第二单元测试、用于检测所述第一代码和所述第二代码之间相似度的多个维度和每个维度的权重;在每个维度下,分别执行所述第一单元测试和所述第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下所述第一代码和所述第二代码之间的相似度;依据所述多个第一相似度和每个维度的权重,得到所述第一代码和所述第二代码之间的目标相似度。
处理器执行程序时还实现以下步骤:在每个维度下,分别执行所述第一单元测试和所述第二单元测试,得到多个第一相似度包括:在每个维度下,执行所述第一单元测试,得到多个第一数据;对所述多个第一数据中的每个第一数据进行转换处理,得到多个第一向量;在每个维度下,执行所述第二单元测试,得到多个第二数据;对所述多个第二数据中的每个第二数据进行转换处理,得到多个第二向量;依据所述多个第一向量中的每个第一向量和所述多个第二向量中的每个第二向量,得到多个第一相似度。
处理器执行程序时还实现以下步骤:在每个维度下,执行所述第一单元测试,得到多个第一数据包括:在所述多个维度中的第一维度下,执行所述第一单元测试,得到第三数据,其中,所述第三数据用于表示传入所述第一代码的参数的信息;在所述多个维度中的第二维度下,执行所述第一单元测试,得到第四数据,其中,所述第四数据用于表示目标方法的目标信息,所述目标方法为所述第一单元测试和所述第二单元测试中的方法,所述目标信息为以下至少之一:传入所述目标方法的参数的信息、使用所述目标方法得到的预期结果;在所述多个维度中的第三维度下,执行所述第一单元测试,得到第五数据,其中,所述第五数据用于表示在执行所述第一单元测试的过程中,是否存在异常情况;在所述多个维度中的第四维度下,执行所述第一单元测试,得到第六数据,其中,所述第六数据用于表示执行所述第一单元测试得到的结果;在所述多个维度中的第五维度下,执行所述第一单元测试,得到第七数据,其中,所述第七数据用于表示在执行所述第一单元测试的过程中,覆盖所述第一代码的覆盖率;将所述第三数据、所述第四数据、所述第五数据、所述第六数据和所述第七数据进行汇总,得到所述多个第一数据。
处理器执行程序时还实现以下步骤:在每个维度下,执行所述第二单元测试,得到多个第二数据包括:在所述第一维度下,执行所述第二单元测试,得到第八数据,其中,所述第八数据用于表示传入所述第二代码的参数的信息;在所述第二维度下,执行所述第二单元测试,得到第九数据,其中,所述第九数据用于表示所述目标方法的所述目标信息;在所述第三维度下,执行所述第二单元测试,得到第十数据,其中,所述第十数据用于表示在执行所述第二单元测试的过程中,是否存在异常情况;在所述第四维度下,执行所述第二单元测试,得到第十一数据,其中,所述第十一数据用于表示执行所述第二单元测试得到的结果;在所述第五维度下,执行所述第二单元测试,得到第十二数据,其中,所述第十二数据用于表示在执行所述第二单元测试的过程中,覆盖所述第二代码的覆盖率;将所述第八数据、所述第九数据、所述第十数据、所述第十一数据和所述第十二数据进行汇总,得到所述多个第二数据。
处理器执行程序时还实现以下步骤:获取第一代码和第二代码包括:确定在目标工程中正在开发的代码,并将所述正在开发的代码作为所述第一代码;获取所述第一代码在所述目标工程中运行时的第一调用次数和第一返回值;确定所述目标工程中返回值与所述第一返回值相同的第三代码;获取所述第三代码在运行过程中的第二调用次数;依据所述第一调用次数和所述第二调用次数,确定将所述第三代码作为所述第二代码。
处理器执行程序时还实现以下步骤:依据所述第一调用次数和所述第二调用次数,确定将所述第三代码作为所述第二代码包括:计算所述第一调用次数和所述第二调用次数之间的差值;判断所述差值是否大于第一预设值;若所述差值大于所述第一预设值,则确定将所述第三代码作为所述第二代码。
处理器执行程序时还实现以下步骤:在依据所述多个第一相似度和每个维度的权重,得到所述第一代码和所述第二代码之间的目标相似度之后,所述方法还包括:判断所述目标相似度是否小于第二预设值;若所述目标相似度小于所述第二预设值,则对所述第二代码进行替换处理。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取第一代码和第二代码,其中,所述第一代码和所述第二代码分别为待检测相似度的代码;分别确定所述第一代码对应的第一单元测试、所述第二代码对应的第二单元测试、用于检测所述第一代码和所述第二代码之间相似度的多个维度和每个维度的权重;在每个维度下,分别执行所述第一单元测试和所述第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下所述第一代码和所述第二代码之间的相似度;依据所述多个第一相似度和每个维度的权重,得到所述第一代码和所述第二代码之间的目标相似度。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在每个维度下,分别执行所述第一单元测试和所述第二单元测试,得到多个第一相似度包括:在每个维度下,执行所述第一单元测试,得到多个第一数据;对所述多个第一数据中的每个第一数据进行转换处理,得到多个第一向量;在每个维度下,执行所述第二单元测试,得到多个第二数据;对所述多个第二数据中的每个第二数据进行转换处理,得到多个第二向量;依据所述多个第一向量中的每个第一向量和所述多个第二向量中的每个第二向量,得到多个第一相似度。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在每个维度下,执行所述第一单元测试,得到多个第一数据包括:在所述多个维度中的第一维度下,执行所述第一单元测试,得到第三数据,其中,所述第三数据用于表示传入所述第一代码的参数的信息;在所述多个维度中的第二维度下,执行所述第一单元测试,得到第四数据,其中,所述第四数据用于表示目标方法的目标信息,所述目标方法为所述第一单元测试和所述第二单元测试中的方法,所述目标信息为以下至少之一:传入所述目标方法的参数的信息、使用所述目标方法得到的预期结果;在所述多个维度中的第三维度下,执行所述第一单元测试,得到第五数据,其中,所述第五数据用于表示在执行所述第一单元测试的过程中,是否存在异常情况;在所述多个维度中的第四维度下,执行所述第一单元测试,得到第六数据,其中,所述第六数据用于表示执行所述第一单元测试得到的结果;在所述多个维度中的第五维度下,执行所述第一单元测试,得到第七数据,其中,所述第七数据用于表示在执行所述第一单元测试的过程中,覆盖所述第一代码的覆盖率;将所述第三数据、所述第四数据、所述第五数据、所述第六数据和所述第七数据进行汇总,得到所述多个第一数据。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在每个维度下,执行所述第二单元测试,得到多个第二数据包括:在所述第一维度下,执行所述第二单元测试,得到第八数据,其中,所述第八数据用于表示传入所述第二代码的参数的信息;在所述第二维度下,执行所述第二单元测试,得到第九数据,其中,所述第九数据用于表示所述目标方法的所述目标信息;在所述第三维度下,执行所述第二单元测试,得到第十数据,其中,所述第十数据用于表示在执行所述第二单元测试的过程中,是否存在异常情况;在所述第四维度下,执行所述第二单元测试,得到第十一数据,其中,所述第十一数据用于表示执行所述第二单元测试得到的结果;在所述第五维度下,执行所述第二单元测试,得到第十二数据,其中,所述第十二数据用于表示在执行所述第二单元测试的过程中,覆盖所述第二代码的覆盖率;将所述第八数据、所述第九数据、所述第十数据、所述第十一数据和所述第十二数据进行汇总,得到所述多个第二数据。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:获取第一代码和第二代码包括:确定在目标工程中正在开发的代码,并将所述正在开发的代码作为所述第一代码;获取所述第一代码在所述目标工程中运行时的第一调用次数和第一返回值;确定所述目标工程中返回值与所述第一返回值相同的第三代码;获取所述第三代码在运行过程中的第二调用次数;依据所述第一调用次数和所述第二调用次数,确定将所述第三代码作为所述第二代码。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:依据所述第一调用次数和所述第二调用次数,确定将所述第三代码作为所述第二代码包括:计算所述第一调用次数和所述第二调用次数之间的差值;判断所述差值是否大于第一预设值;若所述差值大于所述第一预设值,则确定将所述第三代码作为所述第二代码。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在依据所述多个第一相似度和每个维度的权重,得到所述第一代码和所述第二代码之间的目标相似度之后,所述方法还包括:判断所述目标相似度是否小于第二预设值;若所述目标相似度小于所述第二预设值,则对所述第二代码进行替换处理。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种代码相似度的检测方法,其特征在于,包括:
获取第一代码和第二代码,其中,所述第一代码和所述第二代码分别为待检测相似度的代码;
分别确定所述第一代码对应的第一单元测试、所述第二代码对应的第二单元测试、用于检测所述第一代码和所述第二代码之间相似度的多个维度和每个维度的权重;
在每个维度下,分别执行所述第一单元测试和所述第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下所述第一代码和所述第二代码之间的相似度;
依据所述多个第一相似度和每个维度的权重,得到所述第一代码和所述第二代码之间的目标相似度。
2.根据权利要求1所述的方法,其特征在于,在每个维度下,分别执行所述第一单元测试和所述第二单元测试,得到多个第一相似度包括:
在每个维度下,执行所述第一单元测试,得到多个第一数据;
对所述多个第一数据中的每个第一数据进行转换处理,得到多个第一向量;
在每个维度下,执行所述第二单元测试,得到多个第二数据;
对所述多个第二数据中的每个第二数据进行转换处理,得到多个第二向量;
依据所述多个第一向量中的每个第一向量和所述多个第二向量中的每个第二向量,得到多个第一相似度。
3.根据权利要求2所述的方法,其特征在于,在每个维度下,执行所述第一单元测试,得到多个第一数据包括:
在所述多个维度中的第一维度下,执行所述第一单元测试,得到第三数据,其中,所述第三数据用于表示传入所述第一代码的参数的信息;
在所述多个维度中的第二维度下,执行所述第一单元测试,得到第四数据,其中,所述第四数据用于表示目标方法的目标信息,所述目标方法为所述第一单元测试和所述第二单元测试中的方法,所述目标信息为以下至少之一:传入所述目标方法的参数的信息、使用所述目标方法得到的预期结果;
在所述多个维度中的第三维度下,执行所述第一单元测试,得到第五数据,其中,所述第五数据用于表示在执行所述第一单元测试的过程中,是否存在异常情况;
在所述多个维度中的第四维度下,执行所述第一单元测试,得到第六数据,其中,所述第六数据用于表示执行所述第一单元测试得到的结果;
在所述多个维度中的第五维度下,执行所述第一单元测试,得到第七数据,其中,所述第七数据用于表示在执行所述第一单元测试的过程中,覆盖所述第一代码的覆盖率;
将所述第三数据、所述第四数据、所述第五数据、所述第六数据和所述第七数据进行汇总,得到所述多个第一数据。
4.根据权利要求3所述的方法,其特征在于,在每个维度下,执行所述第二单元测试,得到多个第二数据包括:
在所述第一维度下,执行所述第二单元测试,得到第八数据,其中,所述第八数据用于表示传入所述第二代码的参数的信息;
在所述第二维度下,执行所述第二单元测试,得到第九数据,其中,所述第九数据用于表示所述目标方法的所述目标信息;
在所述第三维度下,执行所述第二单元测试,得到第十数据,其中,所述第十数据用于表示在执行所述第二单元测试的过程中,是否存在异常情况;
在所述第四维度下,执行所述第二单元测试,得到第十一数据,其中,所述第十一数据用于表示执行所述第二单元测试得到的结果;
在所述第五维度下,执行所述第二单元测试,得到第十二数据,其中,所述第十二数据用于表示在执行所述第二单元测试的过程中,覆盖所述第二代码的覆盖率;
将所述第八数据、所述第九数据、所述第十数据、所述第十一数据和所述第十二数据进行汇总,得到所述多个第二数据。
5.根据权利要求1所述的方法,其特征在于,获取第一代码和第二代码包括:
确定在目标工程中正在开发的代码,并将所述正在开发的代码作为所述第一代码;
获取所述第一代码在所述目标工程中运行时的第一调用次数和第一返回值;
确定所述目标工程中返回值与所述第一返回值相同的第三代码;
获取所述第三代码在运行过程中的第二调用次数;
依据所述第一调用次数和所述第二调用次数,确定将所述第三代码作为所述第二代码。
6.根据权利要求5所述的方法,其特征在于,依据所述第一调用次数和所述第二调用次数,确定将所述第三代码作为所述第二代码包括:
计算所述第一调用次数和所述第二调用次数之间的差值;
判断所述差值是否大于第一预设值;
若所述差值大于所述第一预设值,则确定将所述第三代码作为所述第二代码。
7.根据权利要求1所述的方法,其特征在于,在依据所述多个第一相似度和每个维度的权重,得到所述第一代码和所述第二代码之间的目标相似度之后,所述方法还包括:
判断所述目标相似度是否小于第二预设值;
若所述目标相似度小于所述第二预设值,则对所述第二代码进行替换处理。
8.一种代码相似度的检测装置,其特征在于,包括:
第一获取单元,用于获取第一代码和第二代码,其中,所述第一代码和所述第二代码分别为待检测相似度的代码;
第一确定单元,用于分别确定所述第一代码对应的第一单元测试、所述第二代码对应的第二单元测试、用于检测所述第一代码和所述第二代码之间相似度的多个维度和每个维度的权重;
第一执行单元,用于在每个维度下,分别执行所述第一单元测试和所述第二单元测试,得到多个第一相似度,其中,每个第一相似度用于表示在每个维度下所述第一代码和所述第二代码之间的相似度;
第二确定单元,用于依据所述多个第一相似度和每个维度的权重,得到所述第一代码和所述第二代码之间的目标相似度。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的代码相似度的检测方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的代码相似度的检测方法。
CN202210770078.6A 2022-07-01 2022-07-01 代码相似度的检测方法及装置、处理器和电子设备 Pending CN115016795A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210770078.6A CN115016795A (zh) 2022-07-01 2022-07-01 代码相似度的检测方法及装置、处理器和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210770078.6A CN115016795A (zh) 2022-07-01 2022-07-01 代码相似度的检测方法及装置、处理器和电子设备

Publications (1)

Publication Number Publication Date
CN115016795A true CN115016795A (zh) 2022-09-06

Family

ID=83078718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210770078.6A Pending CN115016795A (zh) 2022-07-01 2022-07-01 代码相似度的检测方法及装置、处理器和电子设备

Country Status (1)

Country Link
CN (1) CN115016795A (zh)

Similar Documents

Publication Publication Date Title
CN107992307B (zh) 一种函数编译方法及装置
Ivannikov et al. Static analyzer Svace for finding defects in a source program code
CN112800427B (zh) webshell检测方法、装置、电子设备和存储介质
WO2016130542A1 (en) Code relatives detection
US11327722B1 (en) Programming language corpus generation
CN111488573A (zh) 链接库检测方法、装置、电子设备和计算机可读存储介质
CN113961919A (zh) 恶意软件检测方法和装置
CN112688966A (zh) webshell检测方法、装置、介质和设备
CN110750297A (zh) 一种基于程序分析和文本分析的Python代码参考信息生成方法
CN110826057A (zh) 数据处理路径的分析方法、计算机设备、存储介质
CN115016795A (zh) 代码相似度的检测方法及装置、处理器和电子设备
CN113805861B (zh) 基于机器学习的代码生成方法、代码编辑系统及存储介质
CN110968500A (zh) 一种测试用例的执行方法及装置
CN111143203B (zh) 机器学习、隐私代码确定方法、装置及电子设备
CN115033434A (zh) 一种内核性能理论值计算方法、装置及存储介质
Bluemke et al. Selection of metrics for the defect prediction
Pócza et al. Cross-language program slicing in the .NET framework
CN107015909B (zh) 基于代码变更分析的测试方法及装置
Saini et al. Oreo: Scaling clone detection beyond near-miss clones
Romano et al. Automated WebAssembly Function Purpose Identification With Semantics-Aware Analysis
CN111078574A (zh) 生成影响分析报告的方法及装置
CN108255802B (zh) 通用文本解析架构及基于所述架构解析文本的方法和装置
CN112612471B (zh) 代码处理方法、装置、设备及存储介质
US11356853B1 (en) Detection of malicious mobile apps
CN116483735B (zh) 一种代码变更的影响分析方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination