CN114564410A - 基于类级别源代码相似度的软件缺陷预测方法 - Google Patents

基于类级别源代码相似度的软件缺陷预测方法 Download PDF

Info

Publication number
CN114564410A
CN114564410A CN202210277028.4A CN202210277028A CN114564410A CN 114564410 A CN114564410 A CN 114564410A CN 202210277028 A CN202210277028 A CN 202210277028A CN 114564410 A CN114564410 A CN 114564410A
Authority
CN
China
Prior art keywords
class
similarity
source code
constructing
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210277028.4A
Other languages
English (en)
Inventor
文万志
朱宁波
沈陈强
张苏川
陈励文
程帆
吴佳俊
张瑞年
王则林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202210277028.4A priority Critical patent/CN114564410A/zh
Publication of CN114564410A publication Critical patent/CN114564410A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3604Software analysis for verifying properties of programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种基于类级别源代码相似性的软件缺陷预测方法,包括如下步骤:S1、构建数据集;S2、构建源码节点集BAset;S3、构建量化源码节点集DTset;S4、构建相似度值集合BCset;S5、获取最优的类实例数方法GMmethod;S6、构建基于类级别源代码相似性的软件缺陷预测方法CL‑SCS。本发明提出细粒度级别的源项目选择方法,可为后续得数据训练提供更好的源项目,该方法能够有效提升软件缺陷预测效果。

Description

基于类级别源代码相似度的软件缺陷预测方法
技术领域
本发明提供一种基于类级别源代码相似度的软件缺陷预测方法,主要以细粒度级别缩短跨项目之间的数据分布差异,进一步提高软件缺陷预测结果。属于软件缺陷预测的技术领域。
背景技术
软件缺陷在开发阶段不可避免,缺陷程度决定软件质量,缺陷过多会导致软件不可用;且近些年,随着互联网技术,软件功能愈渐复杂,缺陷问题也越发严重,不仅对开发商造成经济损失,甚至会导致安全问题。因此,尽可能减少缺陷导致的各类问题,对于软件的缺陷预测十分必要。
最近,关于软件缺陷预测的研究开始盛行,研究人员提出许多方法来提升软件缺陷预测的质量。而在跨项目缺陷预测方面,其难点在于数据分布差异较大,且多数研究大都基于文件级别的预测,在缺陷预测的方面效果不佳。
为了能够缩小基于文件级别的粗粒度缺陷预测所带来的分布偏差,本发明提出了细粒度级别的源项目选择方法,以类级别的视角,通过确定类实例的量取值选择出高质量的源项目,极大提高软件缺陷预测的效果。
发明内容
本发明要解决的技术问题是提供一种基于类级别源代码相似度的软件缺陷预测方法,提高软件缺陷预测的准确性,能够有效辅助开发人员使用该模型来尽早发现软件缺陷问题,进而减少软件开发过程中的缺陷,具有较高的准确率和效率。
为解决上述技术问题,本发明的实施例提供一种基于类级别源代码相似度的软件缺陷预测方法,包括如下步骤:
S1、构建数据集;
S2、构建源码节点集BAset;
S3、构建量化源码节点集DTset;
S4、构建相似度值集合BCset;
S5、获取最优的类实例数方法GMmethod;
S6、构建基于类级别源代码相似性的软件缺陷预测方法CL-SCS。
其中,所述步骤S1的步骤如下:
S1.1、基于开源网站获取软件项目集合;
S1.2、以项目类作为实例构建项目实例集合;
S1.3、基于开源数据历史记录、项目源代码语法结构、源代码抽象语法树构建特征集{WMC,DIT,NOC,CBO,RFC,LCOM,Ca,Ce,NPM,LCOM3,DAM,MOA,MFA,CAM,IC,CBM,AMC,Max(CC),Avg(CC)},其中,WMC代表每个类的加权方法,DIT代表继承深度,NOC代表孩子的数量,CBO代表对象类之间的耦合,RFC代表对一个类的响应,LCOM和LCOM3代表方法中缺乏的内聚性,Ca代表传入联轴器,Ce代表传出联轴器,NPM代表公共方法的数量,LOC代表代码行数,DAM代表数据访问度量,MOA代表聚集措施,MFA代表功能抽象度的测量,CAM代表分类方法之间的凝聚力,IC代表继承耦合,CBM代表方法之间的耦合,AMC代表平均方法复杂度,Max(CC)代表给定类中方法CC的最大值,Avg(CC)代表给定类方法中CC值的算术平均值;
S1.4、基于实例和特征,形成缺陷预测数据集DATASET。
其中,所述步骤S2的步骤如下:
基于AST(语法抽象树)提取每个项目版本类实例源码节点转换成相关向量,将每个源代码文件解析为一颗AST,节点类型定义分别为:classDeclaration(类定义)、expressionStatement(表达式定义),VariableDeclaration(变量定义),methodDeclaration(方法定义)。
4.根据权利要求1所述的基于类级别源代码相似度的软件缺陷预测方法,其特征在于,所述步骤S3的步骤如下:
S3.1、创建字典:根据源代码中所出现的语法单词进行频次计算,为保证字典准确度,规定出现频次大于1的词进行收录,舍去小于1的词;词典的构建为单词key和编号value,类似[“key”,value];
S3.2、词袋表示向量:根据步骤S3.1所创建的字典,使用doc2bow词袋模型对每个不同单词的词频进行统计,且用词袋的表示方法转为向量;
S3.3、建立语料库:基于步骤S3.2中的词袋表示向量,构建语料库corpus;
S3.4、初始化TF-IDF模型:基于步骤S3.3建立的语料库,建立TF-IDF模型,并生成TF-IDF向量;
其中,步骤S3.1~S3.4基于Doc2Bow模型和TF-IDF模型构建量化源码节点集DTset。
其中,所述步骤S4的步骤为:
余弦相似度公式:根据余弦相似度公式计算目标项目中每个类文件所对应训练项目所有类之间的相似度值。
其中,所述步骤S5的步骤为:
确定最优的类实例数量:根据步骤S4中所计算的相似度值集合,对相似度值进行排序,选取相似度最高的n个类实例,为了确定最优类实例数量n值,其中n=2,3,…,20等整数值,最终确定n个训练项目的类实例,并对选取的n个类实例进行相似度累加,作为该源项目选取的指标。
其中,所述步骤S6的步骤如下:
S6.1、从步骤步骤S1构建的数据集中选择任一项目作为训练集;
S6.2、若在项目内的实验,则从步骤S6.1中选择同一项目内的另一个版本作为测试集;若跨项目之间的实验,则从步骤S6.1中选择不同项目的任一版本作为测试集;
S6.3、选择步骤S6.2中的测试集中一个类实例,根据步骤S4计算测试集中的一个类实例与步骤S6.1所选的训练集中所有类实例相似度,根据S5选取n个相似度最高的类实例,并将选取的类实例相似度进行累加,作为该源项目选择的指标;
S6.4、模型训练所选的n个类实例,以预测所选测试集的类实例情况缺陷;
S6.5、重复步骤S6.3~S6.4的过程直至测试集的所有类实例预测完成,获取最终的缺陷情况;
S6.6、预测缺陷情况与实际缺陷的情况进行对比,得出实验指标;
S6.7、重复步骤S6.2~S6.6的过程直至所有源项目对测试集的所有类实例预测情况完成;
S6.8、根据步骤S6.3获取所有源项目选择的指标进行排序,选取当前训练集所对应指标的最高源项目;
S6.9、重复步骤S6.1~S6.8的过程直至选取所有训练集对应的指标最高源项目,完成相似度最高的源项目选择。
进一步,步骤S6.6在软件预测的研究中,使用F-measure指标来衡量特征方法的效率,而F-measure指标采用Precision和Recall两个参数:
Precision表示的是实例被正确划分为clean的个数占所有实例的百分比;其中,TP表示将有缺陷模块预测为有缺陷模块的个数、TN表示将无缺陷模块预测为无缺陷模块的个数、FP表示将无缺陷模块预测为有缺陷模块的个数、FN表示将有缺陷模块预测为无缺陷模块的个数:
Figure BDA0003556229500000061
Recall表示的是实例被正确划分为缺陷模块的个数占所有缺陷模块的百分比,该值越高,表明模型能正确识别缺陷的概率越大,能够识别更多的缺陷模块:
Figure BDA0003556229500000062
Accuracy表示的正确划分的模块个数占所有模块个数的比例,比越高说明模型分类的准确度越高,反之准确度越低:
Figure BDA0003556229500000063
F-measure是P和CRR两种测量参数的复合方法,值越高,那么该方法就表现的越好:
Figure BDA0003556229500000064
F-measure的值在0~1之间,值越高表明模型性能越好。
本发明的上述技术方案的有益效果如下:
1、本发明提出了细粒度级别的源项目选择方法,以类级别的视角,通过确定类实例的量取值选择出高质量的源项目,极大提高软件缺陷预测的效果。
2、本发明能够有效辅助开发人员使用该模型来尽早发现软件缺陷问题,进而减少软件开发过程中的缺陷,具有较高的准确率和效率。
附图说明
图1是本发明的流程图;
图2是本发明中基于类级别源代码相似性的软件缺陷预测CL-SCS方法图;
图3是本发明中CL-SCS方法与k近邻比较的实验结果箱线图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明提供一种基于源代码相似性的源项目选择方法,包括如下步骤:
S1、构建数据集;
S2、构建源码节点集BAset;
S3、构建量化源码节点集DTset;
S4、构建相似度值集合BCset;
S5、获取最优的类实例数方法GMmethod;
S6、构建基于类级别源代码相似性的软件缺陷预测方法CL-SCS。
步骤S1、数据集构建具体步骤如下:
以promise数据集为例,从promise数据集中选取项目进行测试,数据集主要包含数据集名称、缺陷模块个数、模块的总个数、模块特征的个数、错误实例所占总实例数的百分比等几个方面的内容。
步骤S2、构建源码节点集BAset具体步骤如下:
基于AST(语法抽象树)提取每个项目版本类实例源码节点转换成相关向量,将每个源代码文件解析为一颗AST,节点类型定义分别为:
classDeclaration(类定义),
expressionStatement(表达式定义),
VariableDeclaration(变量定义),
methodDeclaration(方法定义)等。
步骤S3、构建量化源码节点集DTset具体步骤如下:
根据上述所构建的源码节点集,首先创建源码单词频次字典,其次根据doc2bow词袋模型对每个不同单词的词频进行统计,用磁带的表示方法转为向量;然后所表示的向量,构建语料库corpus;最后通过TF-IDF模型生成所量化的源码节点集。
步骤S4、构建相似度值集合BCset具体步骤如下:
余弦相似度公式:根据余弦相似度公式计算目标项目中每个类文件所对应训练项目所有类之间的相似度值。
Similarity表示的是目标项目中某个类实例向量V1与训练项目中某个类实例向量V2的余弦相似度,其中θ表示两个向量的夹角:
Figure BDA0003556229500000091
步骤S5、获取最优的类实例数方法GMmethod:
确定最优的类实例数量:根据S4中所计算的相似度值集合,对相似度值进行排序,选取相似度最高的n个类实例,为了确定最优类实例数量n值,其中n=2,3,…,20等整数值,最终确定n个训练项目的类实例,并对选取的n个类实例进行相似度累加,作为该源项目选取的指标。
步骤S6、构建基于类级别源代码相似性的软件缺陷预测方法CL-SCS具体步骤如下,该步骤如图2所示:
使用CL-SCS方法与K近邻方法进行对比,在recall值方面比k近邻平均高出11.3%,在F1-score值方面比k近邻平均高出8.8%,accuracy的最高值、precision值、recall值和f1累加后的总值除了n=3,均有所提高,且当n=12时,四指标总值提高到23.7%,如图3所示,CL-SCS方法能够提高跨项目软件缺陷预测。
确定n=12时,基于CL-SCS方法所选的类实例与过目类实例相似度的top(12)进行累加,表示该源项目类实例与目标项目类实例相似度值,计算出所有源项目类实例与目标项目类实例相似度,得到与目标项目整体的相似度,针对每个目标项目,根据源项目相似度值所选择出的源项目,对recall和f1值进行分析:排名方面,ant-1.7项目,所选出的源项目recall和f1值排名都是第一;synapse-1.2项目,所选出的源项目recall值排名第一,f1值排名第二;lucene-2.4项目,所选出的源项目recall和f1值排名都是第一;poi-3.0项目,所选出的源项目recall值排名第三,f1值排名第三;xalan-2.6项目,所选出的源项目recall和f1值排名都是第一;xerces-1.4项目,所选出的源项目recall和f1值排名都是第三;camel-1.6项目,所选出的源项目recall值排名第一,f1值排名第二。平均值方面,与未进行选择源项目相比,accuracy值和precision值有所下降外,recall值和F1值都是提高的。总的来说,CL-SCS方法能够较好地选取源项目,提高缺陷预测性能。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于类级别源代码相似度的软件缺陷预测方法,其特征在于,包括如下步骤:
S1、构建数据集;
S2、构建源码节点集BAset;
S3、构建量化源码节点集DTset;
S4、构建相似度值集合BCset;
S5、获取最优的类实例数方法GMmethod;
S6、构建基于类级别源代码相似性的软件缺陷预测方法CL-SCS。
2.根据权利要求1所述的基于类级别源代码相似度的软件缺陷预测方法,其特征在于,所述步骤S1的步骤如下:
S1.1、基于开源网站获取软件项目集合;
S1.2、以项目类作为实例构建项目实例集合;
S1.3、基于开源数据历史记录、项目源代码语法结构、源代码抽象语法树构建特征集{WMC,DIT,NOC,CBO,RFC,LCOM,Ca,Ce,NPM,LCOM3,DAM,MOA,MFA,CAM,IC,CBM,AMC,Max(CC),Avg(CC)},其中,WMC代表每个类的加权方法,DIT代表继承深度,NOC代表孩子的数量,CBO代表对象类之间的耦合,RFC代表对一个类的响应,LCOM和LCOM3代表方法中缺乏的内聚性,Ca代表传入联轴器,Ce代表传出联轴器,NPM代表公共方法的数量,LOC代表代码行数,DAM代表数据访问度量,MOA代表聚集措施,MFA代表功能抽象度的测量,CAM代表分类方法之间的凝聚力,IC代表继承耦合,CBM代表方法之间的耦合,AMC代表平均方法复杂度,Max(CC)代表给定类中方法CC的最大值,Avg(CC)代表给定类方法中CC值的算术平均值;
S1.4、基于实例和特征,形成缺陷预测数据集DATASET。
3.根据权利要求1所述的基于类级别源代码相似度的软件缺陷预测方法,其特征在于,所述步骤S2的步骤如下:
基于AST提取每个项目版本类实例源码节点转换成相关向量,将每个源代码文件解析为一颗AST,节点类型定义分别为:classDeclaration、expressionStatement,VariableDeclaration,methodDeclaration。
4.根据权利要求1所述的基于类级别源代码相似度的软件缺陷预测方法,其特征在于,所述步骤S3的步骤如下:
S3.1、创建字典:根据源代码中所出现的语法单词进行频次计算,为保证字典准确度,规定出现频次大于1的词进行收录,舍去小于1的词;词典的构建为单词key和编号value,类似[“key”,value];
S3.2、词袋表示向量:根据步骤S3.1所创建的字典,使用doc2bow词袋模型对每个不同单词的词频进行统计,且用词袋的表示方法转为向量;
S3.3、建立语料库:基于步骤S3.2中的词袋表示向量,构建语料库corpus;
S3.4、初始化TF-IDF模型:基于步骤S3.3建立的语料库,建立TF-IDF模型,并生成TF-IDF向量;
其中,步骤S3.1~S3.4基于Doc2Bow模型和TF-IDF模型构建量化源码节点集DTset。
5.根据权利要求1所述的基于类级别源代码相似度的软件缺陷预测方法,其特征在于,所述步骤S4的步骤为:
余弦相似度公式:根据余弦相似度公式计算目标项目中每个类文件所对应训练项目所有类之间的相似度值。
6.根据权利要求1所述的基于类级别源代码相似度的软件缺陷预测方法,其特征在于,所述步骤S5的步骤为:
确定最优的类实例数量:根据步骤S4中所计算的相似度值集合,对相似度值进行排序,选取相似度最高的n个类实例,为了确定最优类实例数量n值,其中n=2,3,…,20等整数值,最终确定n个训练项目的类实例,并对选取的n个类实例进行相似度累加,作为该源项目选取的指标。
7.根据权利要求1所述的基于类级别源代码相似度的软件缺陷预测方法,其特征在于,所述步骤S6的步骤如下:
S6.1、从步骤步骤S1构建的数据集中选择任一项目作为训练集;
S6.2、若在项目内的实验,则从步骤S6.1中选择同一项目内的另一个版本作为测试集;若跨项目之间的实验,则从步骤S6.1中选择不同项目的任一版本作为测试集;
S6.3、选择步骤S6.2中的测试集中一个类实例,根据步骤S4计算测试集中的一个类实例与步骤S6.1所选的训练集中所有类实例相似度,根据S5选取n个相似度最高的类实例,并将选取的类实例相似度进行累加,作为该源项目选择的指标;
S6.4、模型训练所选的n个类实例,以预测所选测试集的类实例情况缺陷;
S6.5、重复步骤S6.3~S6.4的过程直至测试集的所有类实例预测完成,获取最终的缺陷情况;
S6.6、预测缺陷情况与实际缺陷的情况进行对比,得出实验指标;
S6.7、重复步骤S6.2~S6.6的过程直至所有源项目对测试集的所有类实例预测情况完成;
S6.8、根据步骤S6.3获取所有源项目选择的指标进行排序,选取当前训练集所对应指标的最高源项目;
S6.9、重复步骤S6.1~S6.8的过程直至选取所有训练集对应的指标最高源项目,完成相似度最高的源项目选择。
8.根据权利要求7所述的基于类级别源代码相似度的软件缺陷预测方法,其特征在于,步骤S6.6在软件预测的研究中,使用F-measure指标来衡量特征方法的效率,而F-measure指标采用Precision和Recall两个参数:
Precision表示的是实例被正确划分为clean的个数占所有实例的百分比;其中,TP表示将有缺陷模块预测为有缺陷模块的个数、TN表示将无缺陷模块预测为无缺陷模块的个数、FP表示将无缺陷模块预测为有缺陷模块的个数、FN表示将有缺陷模块预测为无缺陷模块的个数:
Figure FDA0003556229490000051
Recall表示的是实例被正确划分为缺陷模块的个数占所有缺陷模块的百分比,该值越高,表明模型能正确识别缺陷的概率越大,能够识别更多的缺陷模块:
Figure FDA0003556229490000052
Accuracy表示的正确划分的模块个数占所有模块个数的比例,比越高说明模型分类的准确度越高,反之准确度越低:
Figure FDA0003556229490000053
F-measure是P和CRR两种测量参数的复合方法,值越高,那么该方法就表现的越好:
Figure FDA0003556229490000054
F-measure的值在0~1之间,值越高表明模型性能越好。
CN202210277028.4A 2022-03-21 2022-03-21 基于类级别源代码相似度的软件缺陷预测方法 Withdrawn CN114564410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210277028.4A CN114564410A (zh) 2022-03-21 2022-03-21 基于类级别源代码相似度的软件缺陷预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210277028.4A CN114564410A (zh) 2022-03-21 2022-03-21 基于类级别源代码相似度的软件缺陷预测方法

Publications (1)

Publication Number Publication Date
CN114564410A true CN114564410A (zh) 2022-05-31

Family

ID=81720725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210277028.4A Withdrawn CN114564410A (zh) 2022-03-21 2022-03-21 基于类级别源代码相似度的软件缺陷预测方法

Country Status (1)

Country Link
CN (1) CN114564410A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269377A (zh) * 2022-06-23 2022-11-01 南通大学 一种基于优化实例选择的跨项目软件缺陷预测方法
CN117421244A (zh) * 2023-11-17 2024-01-19 北京邮电大学 多源跨项目软件缺陷预测方法、装置及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269377A (zh) * 2022-06-23 2022-11-01 南通大学 一种基于优化实例选择的跨项目软件缺陷预测方法
CN117421244A (zh) * 2023-11-17 2024-01-19 北京邮电大学 多源跨项目软件缺陷预测方法、装置及存储介质
CN117421244B (zh) * 2023-11-17 2024-05-24 北京邮电大学 多源跨项目软件缺陷预测方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Chen et al. Activehne: Active heterogeneous network embedding
CN114564410A (zh) 基于类级别源代码相似度的软件缺陷预测方法
Duan et al. One size does not fit all: Customizing ontology alignment using user feedback
CN111190968A (zh) 基于知识图谱的数据预处理和内容推荐方法
CN113176998A (zh) 基于源选择的跨项目软件缺陷预测方法
CN115577858B (zh) 基于区块链的碳排放量预测方法、装置及电子设备
CN113254354A (zh) 测试用例推荐方法、装置、可读存储介质及电子设备
Liu et al. Coupled fuzzy k-nearest neighbors classification of imbalanced non-IID categorical data
Amiri et al. Data‐driven business process similarity
Platonov et al. Characterizing graph datasets for node classification: Homophily-heterophily dichotomy and beyond
Jin et al. Deepwalk-aware graph convolutional networks
CN115062696A (zh) 基于标准化类特定互信息的特征选择方法
Wang et al. Approximate truth discovery via problem scale reduction
Cheng et al. Mofsrank: a multiobjective evolutionary algorithm for feature selection in learning to rank
CN113486670A (zh) 基于目标语义的文本分类方法、装置、设备及存储介质
CN112380243A (zh) 基于机器学习的sql查询选择度预估方法
CN117056226A (zh) 基于迁移学习的跨项目软件缺陷数量预测方法
Gu et al. Improving the quality of web-based data imputation with crowd intervention
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN116662893A (zh) 一种基于改进的樽海鞘算法优化svm的水质预测方法
CN113988083B (zh) 一种用于航运新闻摘要生成的事实性信息编码与评估方法
CN113901616A (zh) 一种零件的搜索方法和系统
CN109086373B (zh) 一种构建公平的链接预测评估系统的方法
Boyang et al. A design method of RBF neural network based on KNN-DPC
Vu et al. Density-based clustering with side information and active learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220531

WW01 Invention patent application withdrawn after publication