CN109213865A - 一种软件bug报告分类系统及分类方法 - Google Patents

一种软件bug报告分类系统及分类方法 Download PDF

Info

Publication number
CN109213865A
CN109213865A CN201811076509.9A CN201811076509A CN109213865A CN 109213865 A CN109213865 A CN 109213865A CN 201811076509 A CN201811076509 A CN 201811076509A CN 109213865 A CN109213865 A CN 109213865A
Authority
CN
China
Prior art keywords
bug report
data set
data
module
bug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811076509.9A
Other languages
English (en)
Inventor
郭世凯
陈荣
李辉
唐文君
魏苗苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN201811076509.9A priority Critical patent/CN109213865A/zh
Publication of CN109213865A publication Critical patent/CN109213865A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Stored Programmes (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种软件bug报告分类系统及分类方法,所述系统包括训练部分和测试部分,所述训练部分包括:数据集获取模块、数据约简模块和不平衡数据集处理模块;所述测试部分包括:bug报告输入模块和结果分类输出模块。所述分类方法的主要步骤包括:使用数据约简算法来处理数据,用RSMOTE方法处理不平衡数据集,用获得的平衡数据集训练分类器,以及用Choquet模糊积分来集成多个已经训练过的分类器对bug报告的结果进行分类。本发明通过特征选择和实例选择结合使用的办法,减少了样本维度和单词维度上的数据规模,通过使用基于Choquet模糊积分的集成训练方法,提高了对bug报告严重性的识别程度,同时避免了随机采样的不确定性。

Description

一种软件bug报告分类系统及分类方法
技术领域
本发明涉及一种计算机软件测试方法,尤其是一种软件bug报告的分类系统及方法。
背景技术
在对软件bug报告严重性自动识别分类技术的研究中,目前主要有两个挑战:一是噪音问题(数据的样本维度和单词维度都很高);二是数据不平衡问题。一些研究者试图解决bug报告分类问题时,对于高维问题提出了六种基于过滤器的特征排序技术,以减少可用软件评估标准的数量,比如有将特征选择算法与实例选择算法相结合以减少bug数据集的规模并提高数据的质量。而对于数据不平衡问题,现有技术有采用为每个类在训练集和测试集中选择相同数量bug 报告的方法。然而,从原始数据集手工选择的错误报告可能是有遗漏的,这将导致训练出的分类器的泛化能力较弱。针对训练集问题的不均衡分布,也有在先技术提出了四种使用广泛的不平衡学习策略(ILS)来解决来自四个不同开源项目的bug报告的不平衡分布。这个方法结合使用了常见的4种文本属性降噪的方法(IG,CH,SU,RF)和样本降噪的方法(ICF,LVQ,DROP,POP),来从双重维度(属性维度和样本维度)降低bug报告的噪音。该方法首先使用4种文本属性降噪方法来去除噪音属性,然后根据约减之后的数据进行训练分类,选择出最好的属性降噪方法;然后再使用4种样本降噪的方法去除噪音样本,选择出最好的样本去噪方法。最后组合最好的属性去噪方法和样本去噪方法来达到双重去噪的效果。但是该方法并没有考虑到数据样本不平衡问题,导致分类性能低。
发明内容
针对在先技术存在的缺陷,本发明要解决的技术问题是提出了一种基于去除文本噪音和数据不平衡的软件bug报告分类系统及方法,不仅解决去除文本噪音问题,并且进一步解决去除文本噪音之后的数据不平衡问题。
本发明的技术方案是这样实现的:
一种软件bug报告分类系统,包括训练部分和测试部分,
所述训练部分包括:
数据集获取模块,用于获取数据集,并对获取的数据集进行数据“清洗”,通过词干化、去停用词把无意义的单词删除;
数据约简模块,用于将特征选择和实例选择相结合的方式来处理初始数据集;
不平衡数据集处理模块,用于通过用RSMOTE方法处理不平衡数据集;
所述测试部分包括:
bug报告输入模块,用于输入要进行分类的bug报告;
结果分类输出模块,用于bug报告的结果分类和输出,其中包括用Choquet 模糊积分集成的多个已训练过的分类器。
一种上述软件bug报告分类系统的分类方法,包括以下步骤:
S1,分类系统获取要处理的初始bug数据集,并对该数据集进行数据“清洗”,使用词干化,去停词,把无意义的单词删除;
S2,使用数据约简算法来处理数据,所述数据约简过程采用特征选择与实例选择相结合的方式处理初始数据集,特征选择旨在减少单词维度,获得相关单词的子集,实例选择旨在减少样本维度,获得相关bug报告的子集;
S3,获得约简后的数据集,通过约简得到的高质量数据集作为初始数据集的代表性数据集;
S4,用RSMOTE方法处理不平衡数据集,得到平衡数据集;
S5,用获得的平衡数据集训练分类器;
S6,用Choquet模糊积分来集成多个已经训练过的分类器对bug报告的结果进行分类;
S7,分类系统输出分类后的结果。
进一步的,上述方法所述步骤S2中为了避免单个约简算法可能会产生的偏差和偶然性,使用了四种常用的特征选择算法:OneR,IG,CHI和RF;以及四个实例选择算法:CNN,MCS,ENN和ICF。
进一步的,上述方法所述步骤S4中用RSMOTE方法处理不平衡数据集的具体步骤如下:
S4-1,初始化参数并计算约减之后的数据集的不平衡度;
S4-2,对于每个bug报告,使用欧氏距离去找到与其最相似的k个bug报告,并从这k个bug报告中随机选择bug报告;
S4-3,在高维空间生成新的合成少数类bug报告;
S4-4,如果新的合成少数类bug报告不符合指定的约束,RSMOTE将重新生成少数类bug报告,直到合成少数类bug报告符合指定的约束,数据集达到平衡;
S4-5,得到平衡的数据集。
本发明的有益效果在于:
1.通过将特征选择和实例选择结合,减少了样本维度和单词维度上的数据规模,获得了更小规模且质量更高的约简数据集。
2.通过改进RSMOTE的随机采样技术,减弱了bug报告的不平衡程度。
3.通过使用基于Choquet模糊积分的集成训练方法,结合多个RSMOTE提高了对bug报告严重性的识别程度,同时避免了随机采样的不确定性。
附图说明
附图1为本发明软件bug报告分类方法流程图。
具体实施方式
下面结合附图对本发明具体实施方式进行详述:
本发明所述的软件bug报告分类系统集成了数据约简技术和通过模糊积分实现的多RSMOTE bug报告分类技术,该系统主要包括训练部分和测试部分,
所述训练部分包括:
数据集获取模块,用于获取数据集,并对获取的数据集进行数据“清洗”,通过词干化、去停用词把无意义的单词删除;
数据约简模块,用于将特征选择和实例选择相结合的方式来处理初始数据集;
不平衡数据集处理模块,用于通过用RSMOTE方法处理不平衡数据集;
所述测试部分包括:
bug报告输入模块,用于输入要进行分类的bug报告;
结果分类输出模块,用于bug报告的结果分类和输出,其中包括用Choquet 模糊积分集成的多个已训练过的分类器。
如附图所示,本发明所述软件bug报告分类系统的分类方法包括以下步骤:
S1,分类系统获取要处理的初始bug数据集,并对该数据集进行数据“清洗”,使用词干化,去停词,把无意义的单词删除;
S2,使用数据约简算法来处理数据,所述数据约简过程采用特征选择与实例选择相结合的方式处理初始数据集,特征选择旨在减少单词维度,获得相关单词的子集,实例选择旨在减少样本维度,获得相关bug报告的子集;
S3,获得约简后的数据集,通过约简得到的高质量数据集作为初始数据集的代表性数据集;
S4,用RSMOTE方法处理不平衡数据集,得到平衡数据集;
S5,用获得的平衡数据集训练分类器;
S6,用Choquet模糊积分来集成多个已经训练过的分类器对bug报告的结果进行分类;
S7,分类系统输出分类后的结果。
其中,所述步骤S2中为了避免单个约简算法可能会产生的偏差和偶然性,使用了四种常用的特征选择算法:OneR,IG,CHI和RF;以及四个实例选择算法:CNN,MCS,ENN和ICF。
其中,所述步骤S4中用RSMOTE方法处理不平衡数据集的具体步骤如下:
S4-1,初始化参数并计算约减之后的数据集的不平衡度;
S4-2,对于每个bug报告,使用欧氏距离去找到与其最相似的k个bug报告,并从这k个bug报告中随机选择bug报告;
S4-3,在高维空间仿真生成新的少数类bug报告;
S4-4,如果新的少数类bug报告不符合指定的约束,RSMOTE将重新生成少数类bug报告,直到新生成的少数类bug报告符合指定的约束,数据集达到平衡;
S4-5,得到平衡的数据集。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种软件bug报告分类系统,其特征在于:包括训练部分和测试部分,
所述训练部分包括:
数据集获取模块,用于获取数据集,并对获取的数据集进行数据“清洗”,通过词干化、去停用词把无意义的单词删除;
数据约简模块,用于将特征选择和实例选择相结合的方式来处理初始数据集;
不平衡数据集处理模块,用于通过用RSMOTE方法处理不平衡数据集;
所述测试部分包括:
bug报告输入模块,用于输入要进行分类的bug报告;
结果分类输出模块,用于bug报告的结果分类和输出,其中包括用Choquet模糊积分集成的多个已训练过的分类器。
2.一种采用权利要求1所述软件bug报告分类系统的分类方法,其特征在于,包括以下步骤:
S1,分类系统获取要处理的初始bug数据集,并对该数据集进行数据“清洗”,使用词干化,去停词,把无意义的单词删除;
S2,使用数据约简算法来处理数据,所述数据约简过程采用特征选择与实
例选择相结合的方式处理初始数据集,特征选择旨在减少单词维度,获得相
关单词的子集,实例选择旨在减少样本维度,获得相关bug报告的子集;
S3,获得约简后的数据集,通过约简得到的高质量数据集作为初始数据集的代表性数据集;
S4,用RSMOTE方法处理不平衡数据集,得到平衡数据集;
S5,用获得的平衡数据集训练分类器;
S6,用Choquet模糊积分来集成多个已经训练过的分类器对bug报告的结果进行分类;
S7,分类系统输出分类后的结果。
3.根据权利要求2所述的分类方法,其特征在于,所述步骤S2中为了避免单个约简算法可能会产生的偏差和偶然性,使用了四种常用的特征选择算法:OneR,IG,CHI和RF;以及四个实例选择算法:CNN,MCS,ENN和ICF。
4.根据权利要求2所述的分类方法,其特征在于,所述步骤S4中用RSMOTE方法处理不平衡数据集的具体步骤如下:
S4-1,初始化参数并计算约减之后的数据集的不平衡度;
S4-2,对于每个bug报告,使用欧氏距离去找到与其最相似的k个bug报告,并从这k个bug报告中随机选择bug报告;
S4-3,在高维空间仿真生成新的少数类bug报告;
S4-4,如果新的少数类bug报告不符合指定的约束,RSMOTE将重新生成少数类bug报告,直到新生成的少数类bug报告符合指定的约束,数据集达到平衡;
S4-5,得到平衡的数据集。
CN201811076509.9A 2018-09-14 2018-09-14 一种软件bug报告分类系统及分类方法 Pending CN109213865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811076509.9A CN109213865A (zh) 2018-09-14 2018-09-14 一种软件bug报告分类系统及分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811076509.9A CN109213865A (zh) 2018-09-14 2018-09-14 一种软件bug报告分类系统及分类方法

Publications (1)

Publication Number Publication Date
CN109213865A true CN109213865A (zh) 2019-01-15

Family

ID=64983876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811076509.9A Pending CN109213865A (zh) 2018-09-14 2018-09-14 一种软件bug报告分类系统及分类方法

Country Status (1)

Country Link
CN (1) CN109213865A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934286A (zh) * 2019-03-12 2019-06-25 大连海事大学 基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法
CN110287124A (zh) * 2019-07-03 2019-09-27 大连海事大学 一种自动标记软件错误报告并进行严重性识别的方法
CN112749079A (zh) * 2019-10-31 2021-05-04 中国移动通信集团浙江有限公司 软件测试的缺陷分类方法、装置及计算设备
CN113254329A (zh) * 2021-04-30 2021-08-13 展讯通信(天津)有限公司 基于机器学习的Bug处理方法、系统、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070066761A (ko) * 2005-12-22 2007-06-27 이동수 문법 없이 배우는 언어학습과 언어 감각들의 테스트와 훈련방법 및 시스템
CN105677564A (zh) * 2016-01-04 2016-06-15 中国石油大学(华东) 基于改进的Adaboost软件缺陷不平衡数据分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070066761A (ko) * 2005-12-22 2007-06-27 이동수 문법 없이 배우는 언어학습과 언어 감각들의 테스트와 훈련방법 및 시스템
CN105677564A (zh) * 2016-01-04 2016-06-15 中国石油大学(华东) 基于改进的Adaboost软件缺陷不平衡数据分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIKAI GUO等: "《Ensemble Data Reduction Techniques and Multi-RSMOTE via Fuzzy Integral for Bug Report Classification》", 《IEEE ACCESS》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934286A (zh) * 2019-03-12 2019-06-25 大连海事大学 基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法
CN109934286B (zh) * 2019-03-12 2022-11-11 大连海事大学 基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法
CN110287124A (zh) * 2019-07-03 2019-09-27 大连海事大学 一种自动标记软件错误报告并进行严重性识别的方法
CN112749079A (zh) * 2019-10-31 2021-05-04 中国移动通信集团浙江有限公司 软件测试的缺陷分类方法、装置及计算设备
CN112749079B (zh) * 2019-10-31 2023-12-26 中国移动通信集团浙江有限公司 软件测试的缺陷分类方法、装置及计算设备
CN113254329A (zh) * 2021-04-30 2021-08-13 展讯通信(天津)有限公司 基于机器学习的Bug处理方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109213865A (zh) 一种软件bug报告分类系统及分类方法
CN108898479B (zh) 信用评价模型的构建方法及装置
CN105760889A (zh) 一种高效的不均衡数据集分类方法
CN106228389A (zh) 基于随机森林算法的网络潜力用户挖掘方法及系统
WO2021164232A1 (zh) 用户识别方法、装置、设备及存储介质
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN114722746B (zh) 一种芯片辅助设计方法、装置、设备及可读介质
CN107273387A (zh) 面向高维和不平衡数据分类的集成
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN111680615A (zh) 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法
CN109255029A (zh) 一种采用加权优化训练集增强自动Bug报告分配的方法
CN103336771A (zh) 基于滑动窗口的数据相似检测方法
CN113505826A (zh) 基于联合特征选择的网络流量异常检测方法
WO2019196259A1 (zh) 一种虚假消息的识别方法及其设备
CN112396428B (zh) 一种基于用户画像数据的客群分类管理方法及装置
CN103020645A (zh) 一种垃圾图片识别方法和系统
CN113591962B (zh) 一种网络攻击样本生成方法及装置
JP2010092432A (ja) データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム
CN117272995B (zh) 一种重复工单推荐方法及装置
CN113077271A (zh) 一种基于bp神经网络的企业信用评级方法及装置
CN117173494A (zh) 基于类别平衡样本选择的含噪声标签图像识别方法及系统
CN115423600B (zh) 数据筛选方法、装置、介质及电子设备
CN111126419B (zh) 网点聚类方法及装置
CN108280224B (zh) 万级维度数据生成方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190115

WD01 Invention patent application deemed withdrawn after publication