CN107239798B - 一种面向软件缺陷个数预测的特征选择方法 - Google Patents

一种面向软件缺陷个数预测的特征选择方法 Download PDF

Info

Publication number
CN107239798B
CN107239798B CN201710374939.8A CN201710374939A CN107239798B CN 107239798 B CN107239798 B CN 107239798B CN 201710374939 A CN201710374939 A CN 201710374939A CN 107239798 B CN107239798 B CN 107239798B
Authority
CN
China
Prior art keywords
feature
correlation
software
features
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710374939.8A
Other languages
English (en)
Other versions
CN107239798A (zh
Inventor
余啸
刘进
马子逸
崔晓晖
谷懿
井溢洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201710374939.8A priority Critical patent/CN107239798B/zh
Publication of CN107239798A publication Critical patent/CN107239798A/zh
Application granted granted Critical
Publication of CN107239798B publication Critical patent/CN107239798B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/366Software debugging using diagnostics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明针对软件缺陷数据集中不相关特征和冗余特征会降低软件缺陷个数预测模型的性能的问题,提出了一种面向软件缺陷个数预测的特征选择方法。首先利用特征与特征之间的关联性,对特征集进行谱聚类,将相互之间冗余度高的特征聚类到同一个簇中。在聚类的结果中,利用特征与软件缺陷个数之间的相关性,从每个簇中选出相关性最强的几个特征,这样既降低了特征之间的冗余度,又排除了不相关特征,得到最终的有益于缺陷个数预测模型性能的特征子集。本发明的技术方案具有简单、快速的特点,得到的特征子集有助于提高软件缺陷个数预测模型的性能。

Description

一种面向软件缺陷个数预测的特征选择方法
技术领域
本发明属于特征选择领域,特别是涉及一种面向软件缺陷个数预测的特征选择方法。
背景技术
(1)软件缺陷预测技术:软件缺陷是计算机软件或程序中存在的某个破坏正常运行能力的问题、错误以及隐藏的功能缺陷。随着软件系统在工程应用中的不断扩大,软件缺陷导致的经济损失日益增加。据美国国家标准与技术所的一项研究表明,软件缺陷给美国每年造成的损失高达几百亿元,而其中超过三分之一的损失,如果提前稍加测试,即可避免。除了经济领域,还有一些软件是飞行控制系统软件和医疗设备软件,这些和人命相关的软件,一旦出现软件缺陷问题,就会给人民生命财产安全带来无端灾难,因此软件缺陷预测技术意义重大。软件缺陷预测技术是软件质量保证中的一项重要技术。软件缺陷预测通过分析软件历史仓库,建立缺陷预测模型,对新的软件模块进行缺陷预测。对预测出潜在缺陷的新的软件模块分配更多的测试资源,可以达到合理分配测试和维护资源的目的。目前为止,已有很多高效的软件缺陷方法被提出。
但这些预测通常只给出有缺陷或无缺陷的二分类结果。现有技术表明,如果只按照有无缺陷来分配有限的测试资源,可能会造成资源分配的浪费。如果我们能够准确的预测出缺陷个数,使软件测试人员主要关注那些拥有更多缺陷的软件模块,就可使软件测试工作更为有效。因此,预测软件缺陷个数相比于单纯的预测软件模块是否有缺陷更利于优化软件测试资源的分配。
软件缺陷个数预测过程分为四个阶段:(a)挖掘软件历史仓库,从中抽取出有用的程序模块。程序模块粒度可根据实际应用场景,可设置为文件、包、类或函数等。(b)提取出与软件缺陷有关的特征,并构建出软件缺陷个数训练集。(c)借助特定的建模方法在软件缺陷个数训练集上构建出软件缺陷个数预测模型。不同于单纯的预测新的软件模块是否存在缺陷时采用的是分类模型,软件缺陷个数建模方法采用的是回归模型。(d)在对新的软件模块提取出特征后,利用步骤(d)中训练出的软件缺陷个数预测模型,预测该模块存在多少个缺陷。
在构建软件缺陷预测模型时,与提取出与软件缺陷有关的特征中不可避免会产生冗余特征和不相关特征。冗余特征指的是该特征所包含的信息能从其他特征中推演出来的特征。无关特征则是对采用的机器学习算法不能提供任何的帮助。这些特征的存在会严重影响软件缺陷个数预测模型的准确率,因此,使用特征选择方法去除这类特征是十分必要的。
(2)特征选择技术:特征选择是指从原始特征中选取最小数量的特征子集,特征子集内的属性应与样本类别具有最大相关度,而属性与属性之间又具有最小相关度。之所以需要对特征进行选择,一方面是因为往往大量的原始特征会导致处理的时间和空间复杂度过高,另一方面则是大量不相关特征或冗余特征反而会降低分析方法的性能。因此,有效的特征选择对于缺陷预测技术是非常必要的。目前已有一些研究者将特征选择的方法应用到软件缺陷预测中。现有技术有针对软件度量中穷举搜索的不可行性,提出了一种混合属性选择方法,并减少了特征子集的搜索空间。还有研究构建了一种新的软件缺陷预测框架,并将基于过滤式的特征选择方法应用到了软件缺陷预测中。还有研究提出了一种混合特征选择方法,首先基于特征子集评估器移除软件缺陷数据集中的无关特征和冗余特征,随后基于特征排序评估器进一步移除其中的无关特征,实验结果表明该方法能有效提高缺陷预测模型的性能。但这些特征选择方法都只是针对预测软件模块是否有缺陷的问题。
发明内容
相对于国内外已有的只是针对预测软件模块是否有缺陷的特征选择方法,本发明针对软件缺陷数据集中不相关特征和冗余特征会降低软件缺陷个数预测模型的性能的问题,提出了一种面向软件缺陷个数预测的特征选择方法。
本发明提供的技术方案是一种面向软件缺陷个数预测的特征选择方法,包括以下步骤:
步骤1,挖掘软件历史数据库,从中抽取出有用的软件模块。软件模块粒度可根据实际应用场景,可设置为文件、包、类或函数。然后标记这些软件模块的缺陷数目。
步骤2,提取软件模块中与软件缺陷有关的特征,提取了20个度量属性:加权方法数(wmc),继承树深度(dit),孩子数(noc),对象类之间的耦合度(cbo),类的响应(rfc),内聚缺乏度(lcom),传入耦合(ca),传出耦合(ce),公开方法数(npm),代码行数(loc),数据访问度量(dam),聚合度量(moa),功能抽象度量(mfa),方法间的内聚度(cam),继承耦合(ic),方法间耦合(cbm),平均方法复杂度(amc),最大McCabe环形复杂度(max_cc),平均McCabe环形复杂度(avg_cc)。这20个特征形成了原始的特征集。
步骤3,利用线性Pearson系数计算特征之间的关联性,两个特征之间的冗余度越大,它们的关联性就越强,关联性计算公式为:
Figure BDA0001303767370000021
其中,xik,xjk分别表示第k个软件模块Xk上特征fi的值和特征fj的值,
Figure BDA0001303767370000022
分别表示在所有软件模块数据上特征fi的均值和fj的均值。rij表示特征fi和特征fj之间的关联度,取值介于-1和1之间。其越接近1或-1,关联性越强,越接近于0,关联性越弱。
步骤4,利用谱聚类算法根据特征之间的关联性对这些特征进行聚类,形成K个簇,具体包括:
步骤4.1,构造特征关联性矩阵W,其中wij表示特征fi与特征fj的关联性;两个特征的负相关性强,他们之间的冗余度也很高,由于特征关联性矩阵需要每个值都为正数,因此需要把步骤3中求得的特征关联性为负值的转换为绝对值。
步骤4.2,根据特征关联性矩阵W计算归一化对角矩阵
Figure BDA0001303767370000031
步骤4.3,根据归一化对角矩阵D计算归一化拉普拉斯图矩阵L=D1/2WD1/2
步骤4.4,计算普拉斯图矩阵L的特征向量,将前m个特征值最大的向量按列放置成一个矩阵X,即X=[V1,V2,…,Vm],其中V1,V2,…,Vm依次为前m个特征值最大的特征向量。
步骤4.5,归一化矩阵X形成矩阵Y。
步骤4.6,对矩阵Y按每行为一个数据,采用K-Means算法对所有模块数据进行聚类,矩阵Y中第i行的数据就是原来的第i个软件模块Xi,将特征集划分为K个簇。
步骤5,利用线性Pearson系数衡量计算每个特征与这些模块数据的缺陷数目之间的关联性Ri,其计算公式为:
Figure BDA0001303767370000032
其中,xki,yk分别表示第k个软件模块Xk上特征fi和缺陷个数的取值,
Figure BDA0001303767370000033
分别表示在所有软件模块数据上特征fi和缺陷个数的均值。Ri表示特征fi和缺陷数目间的关联度,取值介于-1和1之间。其越接近1或-1,关联性越强,越接近于0,关联性越弱。缺陷数目表示的是实施例中表示的10个模块数据的缺陷数据这一个向量。
步骤6,根据特征相关性对每个簇中的特征进行排序,从步骤5中获得的每个簇中选取相关性最高的n个特征构成最终的特征子集。
本发明设计了合理的特征选择策略,首先利用特征与特征之间的关联性,对特征集进行谱聚类,将相互之间冗余度高的特征聚类到同一个簇中。在聚类的结果中,利用特征与软件缺陷个数之间的相关性,从每个簇中选出相关性最强的几个特征,这样既降低了特征之间的冗余度,又排除了不相关特征,得到最终的有益于缺陷个数预测模型性能的特征子集。本发明的技术方案具有简单、快速的特点,得到的特征子集有助于提高软件缺陷个数预测模型的性能。
附图说明
图1本发明的流程图。
图2本发明实施例的结果图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明设计的面向软件缺陷个数的特征选择方法的流程见附图1,所有步骤可由本领域技术人员采用计算机软件技术实现流程自动运行。实施例具体实现过程如下:
本发明设计的一种面向软件缺陷个数预测的特征选择方法具体实现过程如下:
步骤1,挖掘软件历史数据,从中抽取出有用的软件模块。软件模块粒度可根据实际应用场景,可设置为文件、包、类或函数。然后标记这些软件模块的缺陷数目。
步骤2,提取软件模块中与软件缺陷有关的特征,这些特征形成原始的特征集。为了方便阐述,本实施例假设只提取了10个特征{f0,f1,f2,f3,f4,f5,f6,f7,f8,f9}。
在经过了步骤1-2后,本实施例假设在提取模块特征和标记软件模块的缺陷数目后形成了10个软件模块数据(最后一位为该模块的缺陷个数):
X1={3.0,1.0,0.0,8.0,14.0,3.0,3.0,5.0,3.0,2.0,‘2’},
X2={13.0,1.0,0.0,1.0,17.0,64.0,0.0,1.0,12.0,0.917,‘0’},
X3={4.0,1.0,0.0,4.0,4.0,6.0,2.0,2.0,4.0,2.0,‘0’},
X4={10.0,1.0,0.0,6.0,31.0,1.0,0.0,6.0,9.0,0.5,‘3’},
X5={7.0,1.0,0.0,6.0,19.0,7.0,0.0,6.0,6.0,0.75,‘0’},
X6={38.0,1.0,0.0,30.0,155.0,485.0,0.0,30.0,34.0,0.9,‘4’},
X7={25.0,1.0,0.0,13.0,74.0,0.0,0.0,13.0,23.0,0.444,‘1’},
X8={13.0,1.0,0.0,19.0,56.0,54.0,0.0,19.0,11.0,0.9,‘3’},
X9={7.0,4.0,4.0,48.0,12.0,19.0,47.0,1.0,6.0,0.94,‘0’},
X10={7.0,1.0,0.0,4.0,7.0,21.0,2.0,2.0,7.0,2.0,‘3’}。
步骤3,利用线性Pearson系数计算特征之间的关联性,两个特征之间的冗余度越大,它们的关联性就越强,关联性计算公式为:
Figure BDA0001303767370000041
其中,xik,xjk分别表示第k个软件模块Xk上特征fi的值和特征fj的值,
Figure BDA0001303767370000042
分别表示在所有软件模块数据上特征fi的均值和fj的均值。rij表示特征fi和特征fj之间的关联度,取值介于-1和1之间。其越接近1或-1,关联性越强,越接近于0,关联性越弱。本实施例中经计算得:r01=-0.18,r02=-0.18,r03=0.32,r04=0.96,r05=0.82,r06=-0.23,r07=0.85,r08=1.00,r09=-0.50,r12=1.00,r13=0.81,r14=0.20,r15=-0.11,r16=1.00,r17=-0.23,r18=-0.20,r19=-0.11,r23=0.81,r24=-0.20,r25=-0.11,r26=1.00,r27=-0.28,r28=-0.20,r29=-0.11,r34=0.37,r35=0.38,r36=0.79,r37=0.34,r38=0.30,r39=-0.27,r45=0.87,r46=-0.24,r47=0.95r48=0.95,r49=-0.43,r56=-0.13,r57=0.80,r58=0.81,r59=-0.15,r67=-0.31,r68=-0.24,r69=-0.04,r78=-0.83,r79=-0.36,r89=-0.48。
步骤4,利用谱聚类算法根据特征之间的关联性对这些特征进行聚类,形成K个簇,具体包括:
步骤4.1,构造特征关联性矩阵W,其中wij表示特征fi与特征fj的关联性。两个特征的负相关性强,他们之间的冗余度也很高,由于特征关联性矩阵需要每个值都为正数,因此需要把步骤3中求得的特征关联性为负值的转换为绝对值。本实施例得到特征关联性矩阵:
Figure BDA0001303767370000051
步骤4.2,根据特征关联性矩阵W计算归一化对角矩阵
Figure BDA0001303767370000052
本实施例得到归一化对角矩阵:
Figure BDA0001303767370000053
步骤4.3,根据归一化对角矩阵D计算归一化拉普拉斯图矩阵L=D1/2WD1/2。本实施例得到拉普拉斯图矩阵:
Figure BDA0001303767370000061
步骤4.4,计算普拉斯图矩阵L的特征向量,将前m个特征值最大的向量按列放置成一个矩阵X,即X=[V1,V2,…,Vm],其中V1,V2,…,Vm依次为前m个特征值最大的特征向量;本实施例设置m=4,求得矩阵
Figure BDA0001303767370000062
步骤4.5,归一化矩阵X形成矩阵Y。本实施例中求得
Figure BDA0001303767370000063
步骤4.6,对矩阵Y按每行为一个数据,采用K-Means算法对所有模块数据进行聚类,矩阵Y中第i行的数据就是原来的第i个软件模块Xi,将特征集划分为K个簇。本实施例中设置K=4,将10个特征划分为4个簇:C1={f3,f5},C2={f0,f4,f7,f8},C3={f1,f2,f6},C4={f9}。
步骤5,利用线性Pearson系数衡量计算每个特征与这些模块数据的缺陷数目之间的关联性Ri,其计算公式为:
Figure BDA0001303767370000071
其中,xki,yk分别表示第k个软件模块Xk上特征fi和缺陷个数的取值,
Figure BDA0001303767370000072
分别表示在所有软件模块数据上特征fi和缺陷数目的均值。Ri表示特征fi和缺陷个数间的关联度,取值介于-1和1之间。其越接近1或-1,关联性越强,越接近于0,关联性越弱。本实施例中计算得到R0=0.452,R1=-0.356,R2=-0.356,R3=0.065,R4=0.577,R5=0.529,R6=-0.357,R7=0.651,R8=0.448,R9=0.009。
步骤6,根据特征相关性对每个簇中的特征进行排序,从步骤5中获得的每个簇中选取相关性最高的n个特征构成最终的特征子集。本实施例中设置n=1。本实施例中对簇C1中的两个特征依照相关性进行排序,得到特征f5排列在第一位,特征f3排列在第二位,选取相关性最高的一个特征即f5。同理,簇C2中选取相关性最高的特征f7,簇C3中选取相关性最高的特征f6,簇4中选取相关性最高的特征f9。最终,f5、f6、f7和f9构成了最终的特征子集。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (1)

1.一种面向软件缺陷个数预测的特征选择方法,其特征是,包括以下步骤:
步骤1,挖掘软件历史数据,从中抽取出有用的软件模块;软件模块粒度可根据实际应用场景,可设置为文件、包、类或函数;然后标记这些软件模块的缺陷数目;
步骤2,提取软件模块中与软件缺陷有关的特征,提取了20个度量属性:加权方法数,继承树深度,孩子数,对象类之间的耦合度,类的响应,内聚缺乏度,传入耦合,传出耦合,公开方法数,代码行数,数据访问度量,聚合度量,功能抽象度量,方法间的内聚度,继承耦合,方法间耦合,平均方法复杂度,最大McCabe环形复杂度,平均McCabe环形复杂度;这20个特征形成了原始的特征集;在经过了步骤1-2后,提取模块特征和标记软件模块的缺陷数目后形成了软件模块数据,其中,最后一位为该模块的缺陷个数:
步骤3,利用线性Pearson系数计算特征之间的关联性,两个特征之间的冗余度越大,它们的关联性就越强,关联性计算公式为:
Figure FDA0002456177810000011
其中,xik,xjk分别表示第k个软件模块Xk上特征fi的值和特征fj的值,
Figure FDA0002456177810000012
分别表示在所有软件模块数据上特征fi的均值和fj的均值;rij表示特征fi和特征fj之间的关联度,取值介于-1和1之间;其越接近1或-1,关联性越强,越接近于0,关联性越弱;
步骤4,利用谱聚类算法根据特征之间的关联性对这些特征进行聚类,形成K个簇,具体包括:
步骤4.1,构造特征关联性矩阵W,其中Wij表示特征fi与特征fj的关联性;两个特征的负相关性强,他们之间的冗余度也很高,由于特征关联性矩阵需要每个值都为正数,因此需要把步骤3中求得的特征关联性为负值的转换为绝对值;
步骤4.2,根据特征关联性矩阵W计算归一化对角矩阵
Figure FDA0002456177810000013
步骤4.3,根据归一化对角矩阵D计算归一化拉普拉斯图矩阵L=D1/2WD1/2
步骤4.4,计算普拉斯图矩阵L的特征向量,将前m个特征值最大的向量按列放置成一个矩阵X,即X=[V1,V2,…,Vm],其中V1,V2,…,Vm依次为前m个特征值最大的特征向量;
步骤4.5,归一化矩阵X形成矩阵Y;
步骤4.6,对矩阵Y按每行为一个数据,采用K-Means算法对所有模块数据进行聚类,矩阵Y中第i行的数据就是原来的第i个软件模块Xi,将特征集划分为K个簇;
步骤5,利用线性Pearson系数衡量计算每个特征与这些模块数据的缺陷数目之间的关联性Ri,其计算公式为:
Figure FDA0002456177810000021
其中,xki,yk分别表示第k个软件模块Xk上特征fi和缺陷个数的取值,
Figure FDA0002456177810000022
分别表示在所有软件模块数据上特征fi和缺陷数目的均值;Ri表示特征fi和缺陷个数间的关联度,取值介于-1和1之间;其越接近1或-1,关联性越强,越接近于0,关联性越弱;
步骤6,根据特征相关性对每个簇中的特征进行排序,从步骤5中获得的每个簇中选取相关性最高的n个特征构成最终的特征子集。
CN201710374939.8A 2017-05-24 2017-05-24 一种面向软件缺陷个数预测的特征选择方法 Expired - Fee Related CN107239798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710374939.8A CN107239798B (zh) 2017-05-24 2017-05-24 一种面向软件缺陷个数预测的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710374939.8A CN107239798B (zh) 2017-05-24 2017-05-24 一种面向软件缺陷个数预测的特征选择方法

Publications (2)

Publication Number Publication Date
CN107239798A CN107239798A (zh) 2017-10-10
CN107239798B true CN107239798B (zh) 2020-06-09

Family

ID=59985150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710374939.8A Expired - Fee Related CN107239798B (zh) 2017-05-24 2017-05-24 一种面向软件缺陷个数预测的特征选择方法

Country Status (1)

Country Link
CN (1) CN107239798B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346286B (zh) * 2017-07-03 2020-05-12 武汉大学 一种基于核主成分分析和极限学习机的软件缺陷预测方法
CN107391365B (zh) * 2017-07-06 2020-10-13 武汉大学 一种面向软件缺陷预测的混合特征选择方法
JP7310171B2 (ja) * 2019-02-28 2023-07-19 富士通株式会社 配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置
CN110135469A (zh) * 2019-04-24 2019-08-16 北京航空航天大学 一种改进基于相关性特征选择的特征过滤方法及装置
US11093379B2 (en) 2019-07-22 2021-08-17 Health Care Service Corporation Testing of complex data processing systems
CN111090579B (zh) * 2019-11-14 2021-08-31 北京航空航天大学 基于皮尔森相关性加权关联分类规则的软件缺陷预测方法
CN111338950A (zh) * 2020-02-25 2020-06-26 北京高质系统科技有限公司 一种基于谱聚类的软件缺陷特征选择方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914373A (zh) * 2012-12-31 2014-07-09 百度在线网络技术(北京)有限公司 一种用于确定模块特征信息所对应的优先级的方法和设备
CN103942568A (zh) * 2014-04-22 2014-07-23 浙江大学 一种基于无监督特征选择的分类方法
CN104536879A (zh) * 2014-11-28 2015-04-22 南京慕测信息科技有限公司 一种基于模糊聚类的多错误定位方法
CN104899135A (zh) * 2015-05-14 2015-09-09 工业和信息化部电子第五研究所 软件缺陷预测方法和系统
CN106503731A (zh) * 2016-10-11 2017-03-15 南京信息工程大学 一种基于条件互信息和K‑means的无监督特征选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914373A (zh) * 2012-12-31 2014-07-09 百度在线网络技术(北京)有限公司 一种用于确定模块特征信息所对应的优先级的方法和设备
CN103942568A (zh) * 2014-04-22 2014-07-23 浙江大学 一种基于无监督特征选择的分类方法
CN104536879A (zh) * 2014-11-28 2015-04-22 南京慕测信息科技有限公司 一种基于模糊聚类的多错误定位方法
CN104899135A (zh) * 2015-05-14 2015-09-09 工业和信息化部电子第五研究所 软件缺陷预测方法和系统
CN106503731A (zh) * 2016-10-11 2017-03-15 南京信息工程大学 一种基于条件互信息和K‑means的无监督特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Cross-project Defect Prediction Using a Connectivity-based Unsupervised Classifier;F. Zhang 等;《2016 IEEE/ACM 38th IEEE International Conference on Software Engineering》;20160522;第309-320页 *
软件缺陷预测中基于聚类分析的特征选择方法;刘望舒 等;《中国科学:信息科学》;20160918;第46卷(第9期);第1298-1320页 *

Also Published As

Publication number Publication date
CN107239798A (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN107239798B (zh) 一种面向软件缺陷个数预测的特征选择方法
CN110825644B (zh) 一种跨项目软件缺陷预测方法及其系统
CN107391369B (zh) 一种基于数据筛选和数据过采样的跨项目缺陷预测方法
CN108345544B (zh) 一种基于复杂网络的软件缺陷分布影响因素分析方法
CN107247666B (zh) 一种基于特征选择和集成学习的软件缺陷个数预测方法
CN108459955B (zh) 基于深度自编码网络的软件缺陷预测方法
CN108196132B (zh) 系统内电磁兼容性评估方法
CN107391452B (zh) 一种基于数据欠采样和集成学习的软件缺陷数目预测方法
US20170364590A1 (en) Detecting Important Variables and Their Interactions in Big Data
CN111104242A (zh) 基于深度学习的操作系统的异常日志的处理方法及装置
Singh et al. Software defect prediction tool based on neural network
CN107391365B (zh) 一种面向软件缺陷预测的混合特征选择方法
CN115641162A (zh) 一种基于建筑工程造价的预测数据分析系统和方法
CN113157564A (zh) 一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法
CN115734274A (zh) 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法
CN115982655A (zh) 一种基于决策树的缺失数据流程异常预测方法
CN114151293A (zh) 风机变桨系统的故障预警方法、系统、设备及存储介质
US20230377132A1 (en) Wafer Bin Map Based Root Cause Analysis
Palacios et al. Unsupervised technique for automatic selection of performance indicators in self-organizing networks
CN116432835A (zh) 客户流失预警归因方法、装置、计算机设备及存储介质
CN110879821A (zh) 评分卡模型衍生标签生成方法、装置、设备及存储介质
KR101085066B1 (ko) 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법
Tang et al. Design and implementation of improved CNN activation function
CN111221704B (zh) 一种确定办公管理应用系统运行状态的方法及系统
CN115062954A (zh) 应用于工程建设的多维度风险评估方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200609

Termination date: 20210524