CN110287124A - 一种自动标记软件错误报告并进行严重性识别的方法 - Google Patents
一种自动标记软件错误报告并进行严重性识别的方法 Download PDFInfo
- Publication number
- CN110287124A CN110287124A CN201910595620.7A CN201910595620A CN110287124A CN 110287124 A CN110287124 A CN 110287124A CN 201910595620 A CN201910595620 A CN 201910595620A CN 110287124 A CN110287124 A CN 110287124A
- Authority
- CN
- China
- Prior art keywords
- report
- data set
- fuzziness
- classifier
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3692—Test management for test results analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Hardware Design (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种自动标记软件错误报告并进行严重性识别的方法,包括以下步骤:S1:对软件错误报告进行编码并将错误报告标记为严重或不严重;S2:采用严重报告和不严重报告训练分类器,获得每个输入报告的后验概率,其中后验概率为输入报告分类的概率分布;S3:采用完成训练的分类器对无标记报告的数据集进行分类,并获得该数据集中每个样例的后验概率;S4:根据S3中求得的后验概率求解每个无标记报告的模糊度;S5:将无标记报告按照模糊度的升序排列,选取前k个无标记报告填充到原数据集中扩充数据集,对扩充后的数据集重新训练分类器。
Description
技术领域
本发明涉及宽度学习技术领域,尤其涉及一种自动标记软件错误报告并进行严重性识别的方法。
背景技术
深度学习在许多应用中受到了广泛的欢迎,同时除了深度神经网络之外,还提出了其他几种连接模型并成功应用于某些问题。其中一种模型是极限学习机ELM它是一种随机权重神经网络,由于其突出的泛化能力和快速的训练速度而引起关注。另一种类型的模型是宽度学习模型BLS,它也是一种连接模型,并提供了构建神经网络的另一种方法。该方法通过增加特征神经元和增强神经元的数量来促进神经网络的泛化能力。由于在开发软件系统的过程中会生成错误报告,以指导开发人员确保软件可靠性。识别bug报告的严重性是软件工程中的重要研究。现有技术中所有识别错误报告严重性的方法和相关工作均基于错误报告和相应标签组成的样本。虽然错误报告的手动标注是费时费力的,但据我们所知,没有标签的错误报告很少能用于严重性识别。此外,由于训练数据不足,大多数连接型分类器都会受到过度拟合的影响。具体地说,过度拟合的分类模型是与特定数据集关联过于紧密,因此可能无法适应其他数据或预测出可靠的分类结果。
发明内容
根据现有技术存在的问题,本发明公开了一种自动标记软件错误报告并进行严重性识别的方法,具体包括如下步骤:
S1:对软件错误报告进行编码并将错误报告标记为严重或不严重;
S2:采用严重报告和不严重报告训练分类器,获得每个输入报告的后验概率,其中后验概率为输入报告分类的概率分布;
S3:采用完成训练的分类器对无标记报告的数据集进行分类,并获得该数据集中每个样例的后验概率;
S4:根据S3中求得的后验概率求解每个无标记报告的模糊度;
S5:将无标记报告按照模糊度的升序排列,选取前k个无标记报告填充到原数据集中扩充数据集,对扩充后的数据集重新训练分类器。
进一步的,所述S2具体采用如下方式:
S21:将极限学习机宽度学习系统作为分类器,采用随机赋权机制训练该分类器,其中极限学习机输入层表达公式为:
H=σ(XW+B)
其中隐层权重根据特定分布随机赋权,通过最小化实际输出与标签之间的距离求得输出层权重,W、B分别表示权重矩阵和偏置矩阵,由预设的分布随机采样得出W和B,H为隐层矩阵经过激活函数σ处理后输出;
极限学习机输出层公式为:
O=Hβ
隐层矩阵H与输出层权重β结合产生结果矩阵O,其中输出层权重β通过最小二值问题解决:
其解为:其中表示隐层矩阵的广义逆;
增加增强神经元,通过对隐层输出矩阵进一步做非线性变换得到,即:
通过将增强神经元与隐层神经元结合连接输出层权重得到网络输出:
Y=[H,E]Wout
S22:使用softmax函数对S21中分类器的输出进行处理,使输出结果变为分类的后验概率p(c|x):
进一步的,S4具体采用如下方式:
根据S3中获得的后验概率结合模糊度计算模型求出各输入报告的模糊度,其中模糊度计算模型为:
所述模糊度计算模型满足如下条件:是一个确定集合,F(μ)取得最大值如果μ≤sσ,那么F(μ)≥F(σ),当μ′(x)=1-μ(x)时,F(μ)=F(μ′),
F(μ∩σ)+F(μ∪σ)=F(μ)+F(σ)其中μ和σ分别表示两个定义在离散有限空间X上的模糊集,其中x代表离散的有限空间,x是X的一部分。
由于采用了上述技术方案,本发明提供的一种自动标记软件错误报告并进行严重性识别的方法,该方法中提出了自动注释错误报告的基于模糊度的增量学习方法,基于该方法,我们提出了半监督学习和转移学习两种不同的应用方式,半监督学习用于解一种自动标记软件错误报告并进行严重性识别的方法决自动标记错误报告严重性的问题,转移学习方法用转移的样本增加训练数据集,本申请概括的方法将用于软件工程的其他任务的应用,并促进其他类型的分类器的泛化能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的一种自动标记软件错误报告并进行严重性识别的方法,具体包括以下步骤:
S1:使用word2vec对软件错误报告进行编码,并将报告分为严重与不严重两种,具体包括如下步骤:
S11:获得软件错误报告数据集,包括有标签数据集,无标签数据集。
S12:将有标签数据集重新划分为严重错误与不严重错误。
S13:使用word2vec将软件错误报告中的编码为相同维度的向量。
S14:将有标签数据集中的标签进行one-hot编码。
S2:使用S1处理好的有标签数据训练一个弱分类器:将该分类器的结果使用softmax函数处理得到每个输入样例的后验概率。每个输入报告的后验概率大于每个输入报告分类的概率分布;
S21:使用极限学习机实现宽度学习系统作为分类器:
极限学习机是一个前向传播的网络,使用随机赋权机制训练:隐层权重根据特定分布随机赋权,输出层权重可以通过最小化实际输出与标签之间的距离来求得。极限学习机输入层可以公式化表示为:
H=σ(XW+B)
W,B分别表示权重矩阵与偏置矩阵,其值如上所述,由预设的分布随机采样得出。H为隐层矩阵经过激活函数σ处理后的输出。
极限学习机输出层公式化表示为:
O=Hβ
隐层矩阵H与输出层权重β结合产生结果矩阵O。其中输出层权重β可以通过一个最小二值问题解决:
其解为:其中表示隐层矩阵的广义逆。
宽度学习系统通过增加特征神经元与增强神经元的数量来提升网络模型的泛化能力。在宽度学习系统中,除了通过对输入数据进行非线性变换得到的隐层输出矩阵外,还增加了增强神经元,通过对隐层输出矩阵进一步做非线性变换得到,即:
最后,通过将增强神经元与隐层神经元结合连接输出层权重得到网络输出:
Y=[H,E]Wout
S22:使用softmax函数对S21中模型的输出进行处理,使输出结果变为分类的后验概率p(c|x):
S3:使用S2训练好的分类器对S1编码后的无标签的数据进行分类,并使用softmax函数得到该数据集中每个样例的后验概率。
S31:使用S2中已训练好的模型对S1中无标签但已编码的数据进行预测,得到输出矩阵。
S32:将S31中获得的输出矩阵使用S2提到的softmax函数进行处理,获得关于无标签数据的后验概率矩阵。对每个输入样例来说,对应该后验概率为一个向量,分别代表属于各类的概率,同时这些概率相加为1。
S4:根据S3求得的后验概率求解每个样例的模糊度,即,每个样例分类的不确定性。根据S3获得的后验概率矩阵,结合模糊度计算模型,求出各输入样例的模糊度:
模糊度的计算模型需要满足:
1:是一个确定集合。
2:F(μ)取得最大值
3:如果μ≤sσ,那么F(μ)≥F(σ)
4:当μ′(x)=1-μ(x)时,F(μ)=F(μ′),
5:F(μ∩σ)+F(μ∪σ)=F(μ)+F(σ)
其中μ和σ分别表示两个定义在离散有限空间X上的模糊集,x是X的一部分。操作≤s定义如下:
S42:样例的模糊度表示决策的确定性,模糊度越低,则表示对该样例的判断越确定,反之,越不确定。当后验概率为0.5时,样例的模糊度最高。
S5:将S3中的无标签数据按S4得到的模糊度升序排序,选取前k个模糊度小的样例填充到原数据集中扩充数据集。
S51:将无标签样例根据其模糊度升序排序,也就是说模糊度越小的样例越靠前。
S52:根据S4中模糊度的性质,因为模糊度可以表示样例分类的不确定性。所以从排好序的样例序列中选取前k个根据其各自所述分类添加到原训练数据集中。
S53:S52中使用的k为经验值,对所构建的增强数据集起重大作用。
S6:使用S5扩充后的数据集重新训练分类器,得到一个分类效果更好地分类器。使用增强数据集训练的分类器分类能力因为数据集的扩充而得到提高,理想情况下,会将所有无标签数据集中的数据全部标注,得到最好的分类器。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (3)
1.一种自动标记软件错误报告并进行严重性识别的方法,其特征在于包括:以下步骤:
S1:对软件错误报告进行编码并将错误报告标记为严重或不严重;
S2:采用严重报告和不严重报告训练分类器,获得每个输入报告的后验概率,其中后验概率为输入报告分类的概率分布;
S3:采用完成训练的分类器对无标记报告的数据集进行分类,并获得该数据集中每个样例的后验概率;
S4:根据S3中求得的后验概率求解每个无标记报告的模糊度;
S5:将无标记报告按照模糊度的升序排列,选取前k个无标记报告填充到原数据集中扩充数据集,对扩充后的数据集重新训练分类器。
2.根据权利要求1所述的一种自动标记软件错误报告并进行严重性识别的方法,其特征还在于:所述S2具体采用如下方式:
S21:将极限学习机宽度学习系统作为分类器,采用随机赋权机制训练该分类器,其中极限学习机输入层表达公式为:
H=σ(XW+B)
其中隐层权重根据特定分布随机赋权,通过最小化实际输出与标签之间的距离求得输出层权重,W、B分别表示权重矩阵和偏置矩阵,由预设的分布随机采样得出W和B,H为隐层矩阵经过激活函数σ处理后输出;
极限学习机输出层公式为:
O=Hβ
隐层矩阵H与输出层权重β结合产生结果矩阵O,其中输出层权重β通过最小二值问题解决:
其解为:其中表示隐层矩阵的广义逆;
增加增强神经元,通过对隐层输出矩阵进一步做非线性变换得到,即:
通过将增强神经元与隐层神经元结合连接输出层权重得到网络输出:
Y=[H,E]Wout
S22:使用softmax函数对S21中分类器的输出进行处理,使输出结果变为分类的后验概率p(c|x):
3.根据权利要求1所述的一种自动标记软件错误报告并进行严重性识别的方法,其特征还在于:S4具体采用如下方式:
根据S3中获得的后验概率结合模糊度计算模型求出各输入报告的模糊度,其中模糊度计算模型为:
所述模糊度计算模型满足如下条件:是一个确定集合,F(μ)取得最大值如果μ≤sσ,那么F(μ)≥F(σ),当μ′(x)=1-μ(x)时,F(μ)=F(μ′),
F(μ∩σ)+F(μ∪σ)=F(μ)+F(σ)其中μ和σ分别表示两个定义在离散有限空间X上的模糊集;其中x代表离散的有限空间,x是X的一部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910595620.7A CN110287124B (zh) | 2019-07-03 | 2019-07-03 | 一种自动标记软件错误报告并进行严重性识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910595620.7A CN110287124B (zh) | 2019-07-03 | 2019-07-03 | 一种自动标记软件错误报告并进行严重性识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287124A true CN110287124A (zh) | 2019-09-27 |
CN110287124B CN110287124B (zh) | 2023-04-25 |
Family
ID=68020436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910595620.7A Active CN110287124B (zh) | 2019-07-03 | 2019-07-03 | 一种自动标记软件错误报告并进行严重性识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287124B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582357A (zh) * | 2020-04-30 | 2020-08-25 | 华南理工大学 | 一种基于多维度集成的电力指纹识别方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030023590A1 (en) * | 2001-04-19 | 2003-01-30 | International Business Machines Corporation | Generalized mechanism for unicode metadata |
US8767587B1 (en) * | 2009-01-21 | 2014-07-01 | Cisco Technology, Inc. | Exploratory linktrace operations in a computer network |
US20160025028A1 (en) * | 2014-07-22 | 2016-01-28 | The Regents Of The University Of Michigan | Adaptive Machine Learning Method To Predict And Control Engine Combustion |
WO2016101182A1 (zh) * | 2014-12-23 | 2016-06-30 | 清华大学 | 基于贝叶斯网络和极限学习机的区间型指标预报方法 |
US20160328366A1 (en) * | 2015-05-04 | 2016-11-10 | King Fahd University Of Petroleum And Minerals | Systems and associated methods for arabic handwriting synthesis and dataset design |
US20170161606A1 (en) * | 2015-12-06 | 2017-06-08 | Beijing University Of Technology | Clustering method based on iterations of neural networks |
CN108337255A (zh) * | 2018-01-30 | 2018-07-27 | 华中科技大学 | 一种基于web自动化测试和宽度学习的钓鱼网站检测方法 |
US20180284742A1 (en) * | 2016-05-09 | 2018-10-04 | StrongForce IoT Portfolio 2016, LLC | Methods and systems for industrial internet of things data collection for process adjustment in an upstream oil and gas environment |
CN109213865A (zh) * | 2018-09-14 | 2019-01-15 | 大连海事大学 | 一种软件bug报告分类系统及分类方法 |
CA3072045A1 (en) * | 2017-08-02 | 2019-02-07 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for detection in an industrial internet of things data collection environment with large data sets |
CN109347872A (zh) * | 2018-11-29 | 2019-02-15 | 电子科技大学 | 一种基于模糊度和集成学习的网络入侵检测方法 |
CN109831386A (zh) * | 2019-03-08 | 2019-05-31 | 西安交通大学 | 一种sdn下基于机器学习的最优路径选择算法 |
CN109934286A (zh) * | 2019-03-12 | 2019-06-25 | 大连海事大学 | 基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法 |
-
2019
- 2019-07-03 CN CN201910595620.7A patent/CN110287124B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030023590A1 (en) * | 2001-04-19 | 2003-01-30 | International Business Machines Corporation | Generalized mechanism for unicode metadata |
US8767587B1 (en) * | 2009-01-21 | 2014-07-01 | Cisco Technology, Inc. | Exploratory linktrace operations in a computer network |
US20160025028A1 (en) * | 2014-07-22 | 2016-01-28 | The Regents Of The University Of Michigan | Adaptive Machine Learning Method To Predict And Control Engine Combustion |
WO2016101182A1 (zh) * | 2014-12-23 | 2016-06-30 | 清华大学 | 基于贝叶斯网络和极限学习机的区间型指标预报方法 |
US20160328366A1 (en) * | 2015-05-04 | 2016-11-10 | King Fahd University Of Petroleum And Minerals | Systems and associated methods for arabic handwriting synthesis and dataset design |
US20170161606A1 (en) * | 2015-12-06 | 2017-06-08 | Beijing University Of Technology | Clustering method based on iterations of neural networks |
US20180284742A1 (en) * | 2016-05-09 | 2018-10-04 | StrongForce IoT Portfolio 2016, LLC | Methods and systems for industrial internet of things data collection for process adjustment in an upstream oil and gas environment |
CA3072045A1 (en) * | 2017-08-02 | 2019-02-07 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for detection in an industrial internet of things data collection environment with large data sets |
CN108337255A (zh) * | 2018-01-30 | 2018-07-27 | 华中科技大学 | 一种基于web自动化测试和宽度学习的钓鱼网站检测方法 |
CN109213865A (zh) * | 2018-09-14 | 2019-01-15 | 大连海事大学 | 一种软件bug报告分类系统及分类方法 |
CN109347872A (zh) * | 2018-11-29 | 2019-02-15 | 电子科技大学 | 一种基于模糊度和集成学习的网络入侵检测方法 |
CN109831386A (zh) * | 2019-03-08 | 2019-05-31 | 西安交通大学 | 一种sdn下基于机器学习的最优路径选择算法 |
CN109934286A (zh) * | 2019-03-12 | 2019-06-25 | 大连海事大学 | 基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法 |
Non-Patent Citations (3)
Title |
---|
SHIKAI GUO 等: "Identify Severity Bug Report with Distribution Imbalance by CR-SMOTE and ELM", 《INTERNATIONAL JOURNAL OF SOFTWARE ENGINEERING》 * |
张天伦 等: "基于代价极速学习机的软件缺陷报告分类方法", 《软件学报》 * |
贾晨 等: "基于宽度学习方法的多模态信息融合", 《智能系统学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582357A (zh) * | 2020-04-30 | 2020-08-25 | 华南理工大学 | 一种基于多维度集成的电力指纹识别方法 |
CN111582357B (zh) * | 2020-04-30 | 2023-05-26 | 华南理工大学 | 一种基于多维度集成的电力指纹识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110287124B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897733B (zh) | 一种基于最小集合覆盖的模糊测试方法和装置 | |
CN111368886B (zh) | 一种基于样本筛选的无标注车辆图片分类方法 | |
Singh et al. | A review of studies on machine learning techniques | |
CN111191732A (zh) | 一种基于全自动学习的目标检测方法 | |
Hamdani et al. | Hierarchical genetic algorithm with new evaluation function and bi-coded representation for the selection of features considering their confidence rate | |
CN110365603A (zh) | 一种基于5g网络能力开放的自适应网络流量分类方法 | |
CN114863091A (zh) | 一种基于伪标签的目标检测训练方法 | |
CN104598898B (zh) | 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法 | |
CN110287124A (zh) | 一种自动标记软件错误报告并进行严重性识别的方法 | |
CN115797701A (zh) | 目标分类方法、装置、电子设备及存储介质 | |
Li et al. | Symbolic expression transformer: A computer vision approach for symbolic regression | |
CN118154968A (zh) | 一种用于干、湿垃圾分类的识别纠错方法及终端 | |
Upadhyay et al. | A Comparative Study on the Effectiveness of Various Machine Learning Paradigms in Image Recognition and Predictive Modelling | |
CN112348108A (zh) | 一种基于众包模式的样本标注方法 | |
CN116629716A (zh) | 一种智能交互系统工效分析方法 | |
CN113221575B (zh) | Pu强化学习的远程监督命名实体识别方法 | |
CN115438190A (zh) | 一种配电网故障辅助决策知识抽取方法及系统 | |
CN115240271A (zh) | 基于时空建模的视频行为识别方法与系统 | |
CN112559589A (zh) | 一种远程测绘数据处理方法及系统 | |
CN118262125B (zh) | 图像分类模型获取方法和图像分类方法、装置和设备 | |
CN113705729B (zh) | 垃圾分类模型建模方法、垃圾分类方法、装置及介质 | |
Molitor et al. | Hierarchical Classification Using Binary Data | |
CN115935178A (zh) | 基于无标签样本学习的预测集成建模方法 | |
KR960013817B1 (ko) | 필기체 영문자 및 숫자 인식 방법 | |
CN115907483A (zh) | 人员风险评估预警的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |