CN114676298B - 一种基于质量过滤器的缺陷报告标题自动生成方法 - Google Patents
一种基于质量过滤器的缺陷报告标题自动生成方法 Download PDFInfo
- Publication number
- CN114676298B CN114676298B CN202210379210.0A CN202210379210A CN114676298B CN 114676298 B CN114676298 B CN 114676298B CN 202210379210 A CN202210379210 A CN 202210379210A CN 114676298 B CN114676298 B CN 114676298B
- Authority
- CN
- China
- Prior art keywords
- quality
- defect report
- title
- defect
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007547 defect Effects 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000013135 deep learning Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims abstract description 7
- 230000014509 gene expression Effects 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 13
- 238000013136 deep learning model Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010200 validation analysis Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000013643 reference control Substances 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Stored Programmes (AREA)
Abstract
本发明提供了一种基于质量过滤器的缺陷报告标题自动生成方法,属于软件质量保障技术领域。其技术方案为:首先从GitHub上选择高质量开源项目,再对数据集进行数据预处理,训练自动生成模型,当预测新的缺陷报告时,分别基于通过学习低质量缺陷报告特征进行过滤的深度学习模块和通过判断历史数据集中是否存在与新缺陷报告内容相似的数据实现预测的信息检索模块,来协同预测该缺陷报告能否生成高质量标题,若预测能,则通过自动生成模型生成标题,反之则提出警告。本发明的有益效果为:通过使用正则表达式进行数据预处理,提高了数据处理效率和方法的兼容性;通过双模块协同过滤,提高了自动生成模型生成的标题质量与效率。
Description
技术领域
本发明涉及软件质量保障技术领域,尤其是一种基于质量过滤器的缺陷报告标题自动生成方法。
背景技术
在现代软件工程的开发过程中,软件缺陷修复一直作为一个重要问题伴随在软件更新迭代和技术快速发展的左右。软件缺陷报告是一种特定的报告,其中包含故障描述信息、堆栈跟踪和其他诊断信息,以帮助开发人员定位和修复软件项目中的错误。在软件项目开发和维护过程中,软件缺陷报告管理十分重要,与软件缺陷修复的效率密切相关。目前,软件缺陷报告分析已经引起了研究人员的广泛关注。
根据专业QA平台Testlio的建议,高质量的软件缺陷报告标题应该为软件缺陷报告主体提供简洁、准确的摘要,使开发者不需要阅读软件缺陷报告正文的详细信息,就可以快速了解软件缺陷报告的核心内容。然而,由于开发者缺乏经验等原因,开源项目的软件缺陷报告标题质量远远不能令人满意。在为缺陷报告命名时,以开发人员手动命名为代表的传统命名方式具有受个人主观因素影响大、不清晰、不准确的缺点,因此,寻找自动化替代方案是大势所趋。为了帮助开发人员生成高质量的软件缺陷报告标题,已经存在一些探索,从而将软件缺陷报告标题生成问题转化为单句摘要问题。此外,为了缓解发行主体中的标识符和版本号引起的低词频问题,一些研究人员提出可以采用令牌标记法等。这在一定程度上提高了方法的效果。
然而,在分析了现有方法生成的软件缺陷报告标题的BLEU分数分布后,发现平均只有19.6%的生成标题的BLEU分数可以超过0.1,现有方法生成的很大一部分标题是低质量的,这可能会误导开发者,使开发者仍旧需要花费许多时间和精力阅读软件缺陷报告,以了解软件缺陷报告内容并确认这些标题的正确性,最终降低开发者对自动化替代方法的信心。为了提高生成标题的质量,一种可能的解决方案是提高现有方法的性能(例如提高数据集的质量或设计新的软件缺陷报告标题生成方法)。目标是从另一个角度解决这个问题,在此基础上提出了一种基于质量预测的过滤器,以使自动化替代方法更实用、更值得信赖。
发明内容
为了解决上述技术问题,本发明提供了一种基于质量过滤器的缺陷报告标题自动生成方法,通过提出两个质量检测模块,并将其有机结合,从而快速且高可靠性地过滤低质量的软件缺陷报告标题自动化生成结果。
为了实现上述发明目的,本发明采用的技术方案具体为:
一种基于质量过滤器的缺陷报告标题自动生成方法,其特征在于,包括如下步骤:
(1)从GitHub上选择高质量开源项目,通过爬虫技术搜集开源项目内的缺陷报告内容和标题以构建数据集D,随后按照80%:20%的比例依次构造训练集Dtrain和验证集Dval;
(2)对训练集Dtrain和验证集Dval进行数据预处理,以提升数据集质量;
(3)基于训练集Dtrain和验证集Dval,使用基于注意力机制的seq2seq深度学习模型构建标题自动生成模型MGen;
(4)构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤;
(5)当输入新的缺陷报告内容后,基于两个过滤器,分别计算出预测结果,情况一:如果两个模块都预测基于该缺陷报告内容,不能生成高质量标题,则输出警告信息;情况二:否则,调用模型MGen,生成缺陷报告的标题。
进一步地,步骤(2)中对训练集Dtrain和验证集Dval进行数据预处理,以提升数据集质量,具体包括如下步骤:
2-1)首先使用正则表达式,过滤并移除数据集中的三类低质量缺陷报告:①标题长度少于5个单词或大于15个单词或含有URL的,②标题中有超过70%的单词未在内容中出现的,③占标题70%以上长度的字符串出现在缺陷报告内容中;
2-2)对缺陷报告的标题和内容进行进一步处理,具体做法是使用正则表达式筛选出开发人员自己定义的变量名和版本号,在自定义的变量名前后插入“<I>”、“<I$>”标识符,在版本号前后插入“<V>”、“<V$>”标识符;通过上述处理,可以使得seq2seq深度学习模型在学习的时候保留些变量名和版本号的信息,并且可以在生成标题时直接复制这些信息,从而有助于生成高质量标题。
进一步地,步骤(3)中基于训练集Dtrain和验证集Dval,使用基于注意力机制的seq2seq深度学习模型构建标题自动生成模型MGen,具体包括如下步骤:
3-1)基于训练集Dtrain和验证集Dval,构建基于深度学习的质量过滤器模块;
①使用模型MGen,为训练集Dtrain和验证集Dval中的缺陷报告生成标题;
②依次计算训练集Dtrain和验证集Dval中每个缺陷报告生成标题和原标题间的BLEU指标值。BLEU指标可以评估两段文字之间的相似度。基于BLEU指标值可以构造训练基于深度学习的质量过滤器模块的数据集Dqua。即若BLEU指标取值超过0.1,则将该缺陷报告的标签赋值为1,否则将该缺陷报告的标签赋值为0;
③将数据集Dqua按照70%和30%的比例进行分层采样以形成训练集和验证集。并基于该训练集和验证集,基于Transformer构建出基于深度学习的质量过滤器模块;
Transformer的超参和对应取值如下:
所述Transformer模型的编码器数量设置为两个;
所述Transformer模型的注意力头数设置为五个;
所述Transformer模型的词向量维度设置为300;
所述Transformer模型的隐藏层数量设置为两层;
所述Transformer模型的最大输入长度设置为100;
所述Transformer模型的dropout设置为0.5;
所述Transformer模型的优化器设置为Adam;
所述Transformer模型的学习率设置为0.001;
所述Transformer模型的一次训练所抓取的数据样本数量设置为256;
所述Transformer模型的激活函数设置为Relu。
④将需要生成标题的缺陷报告内容Issuenew,输入到基于深度学习的质量过滤器模块中,可以预测出是否可以生成高质量标题。
3-2)构建基于信息检索的质量过滤器模块;
①依次取出训练集Dtrain和验证集Dval中的缺陷报告,将缺陷报告内容用TF-IDF向量进行表示;
②将需要生成标题的缺陷报告内容Issuenew同样用TF-IDF向量进行表示;
③随后基于信息检索的质量过滤器模块,基于余弦相似度,依次计算需要生成标题的缺陷报告Issuenew与训练集Dtrain和验证集Dval内的缺陷报告的相似度,并从中选出最为相似的前五个缺陷报告;
④接着基于BLEU指标,从这前五个缺陷报告中进一步选出BLEU值最高的缺陷报告。若其BLEU取值低于0.1,则预测针对缺陷报告内容Issuenew,不能生成高质量标题,否则预测可以生成高质量标题。
与现有技术相比,本发明的有益效果为:本发明设计了基于信息检索的模块和基于深度学习的模块,并把两个模块相结合起来,提出了一种基于质量预测的过滤器;基于信息检索的模块根据其对应的缺陷报告内容与历史数据库中的缺陷报告内容的相似度来计算分数,有效提高了对历史数据的利用率,并降低了方法的耗时,提高了准确率,平衡了计算成本和该模块的性能;基于深度学习的模块采用了目前最先进的深度学习方法,有效地学习了低质量数据的特征,从而提高了模型的准确性。通过将两个模块结合起来,有效地规避了两个模块各自的缺点,发扬了两个模块各自的优点,从而实现了该创新方法在评测指标上的优良表现。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明基于质量过滤器的缺陷报告标题自动生成方法的整体流程图。
图2为本发明基于质量过滤器的缺陷报告标题自动生成方法中数据预处理阶段的流程子图。
图3为本发明基于质量过滤器的缺陷报告标题自动生成方法中基于深度学习模型的过滤器流程子图。
图4为本发明基于质量过滤器的缺陷报告标题自动生成方法中基于信息检索方法的过滤器流程子图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
步骤(1)从GitHub上选择高质量开源项目,通过爬虫技术搜集开源项目内的缺陷报告内容和标题以构建数据集D,随后按照80%:20%的比例依次构造训练集Dtrain和验证集Dval,因总数据量较大,仅展示其中5条数据,如表1和表2所示:
表1训练集Dtrain(部分数据)
表2验证集Dval(部分数据)
步骤(2)对训练集Dtrain和验证集Dval进行数据预处理,以提升数据集质量。
2-1)首先使用正则表达式,过滤并移除数据集中的三类低质量缺陷报告:①标题长度少于5个单词或大于15个单词或含有URL的,②标题中有超过70%的单词未在内容中出现的,③占标题70%以上长度的字符串出现在缺陷报告内容中;
2-2)对缺陷报告的标题和内容进行进一步处理,具体做法是使用正则表达式筛选出开发人员自己定义的变量名和版本号,在自定义的变量名前后插入“<I>”、“<I$>”标识符,在版本号前后插入“<V>”、“<V$>”标识符;通过上述处理,可以使得seq2seq深度学习模型在学习的时候保留些变量名和版本号的信息,并且可以在生成标题时直接复制这些信息,从而有助于生成高质量标题。
数据预处理后的训练集Dtrain和验证集Dval如表3与表4所示。
表3数据预处理后的训练集Dtrain(部分数据)
表4数据预处理后的验证集Dval(部分数据)
步骤(3)基于训练集Dtrain和验证集Dval,使用基于注意力机制的seq2seq深度学习模型构建标题自动生成模型MGen。
3-1)基于训练集Dtrain和验证集Dval,构建基于深度学习的质量过滤器模块;
①使用模型MGen,为训练集Dtrain和验证集Dval中的缺陷报告生成标题;
②依次计算训练集Dtrain和验证集Dval中每个缺陷报告生成标题和原标题间的BLEU指标值。BLEU指标可以评估两段文字之间的相似度。基于BLEU指标值可以构造训练基于深度学习的质量过滤器模块的数据集Dqua。即若BLEU指标取值超过0.1,则将该缺陷报告的标签赋值为1,否则将该缺陷报告的标签赋值为0;
③将数据集Dqua按照70%和30%的比例进行分层采样以形成训练集和验证集。并基于该训练集和验证集,基于Transformer构建出基于深度学习的质量过滤器模块;
Transformer的超参和对应取值如下:
所述Transformer模型的编码器数量设置为两个;
所述Transformer模型的注意力头数设置为五个;
所述Transformer模型的词向量维度设置为300;
所述Transformer模型的隐藏层数量设置为两层;
所述Transformer模型的最大输入长度设置为100;
所述Transformer模型的dropout设置为0.5;
所述Transformer模型的优化器设置为Adam;
所述Transformer模型的学习率设置为0.001;
所述Transformer模型的一次训练所抓取的数据样本数量设置为256;
所述Transformer模型的激活函数设置为Relu。
④将需要生成标题的缺陷报告内容Issuenew,输入到基于深度学习的质量过滤器模块中,可以预测出是否可以生成高质量标题。
模型所生成的对应标题如表5及表6所示:
表5模型所生成的训练集Dtrain对应标题
表6模型所生成的验证集Dval对应标题
算得的训练集Dtrain和验证集Dval中缺陷报告生成标题和原标题间的BLEU指标值结果如表7和表8所示:
表7训练集Dtrain缺陷报告生成标题和原标题间的BLEU指标值结果
表8验证集Dval缺陷报告生成标题和原标题间的BLEU指标值结果
3-2)构建基于信息检索的质量过滤器模块;
①依次取出训练集Dtrain和验证集Dval中的缺陷报告,将缺陷报告内容用TF-IDF向量进行表示;
②将需要生成标题的缺陷报告内容Issuenew同样用TF-IDF向量进行表示;
③随后基于信息检索的质量过滤器模块,基于余弦相似度,依次计算需要生成标题的缺陷报告Issuenew与训练集Dtrain和验证集Dval内的缺陷报告的相似度,并从中选出最为相似的前五个缺陷报告;
④接着基于BLEU指标,从这前五个缺陷报告中进一步选出BLEU值最高的缺陷报告。若其BLEU取值低于0.1,则预测针对缺陷报告内容Issuenew,不能生成高质量标题,否则预测可以生成高质量标题。
缺陷报告内容所对应TF-IDF向量计算得到的结果样例如表9所示:
表9 TF-IDF向量计算结果样例
新输入缺陷报告内容、历史数据库中最相似五个缺陷报告及计算得到的最相似缺陷报告内容BLEU值、信息检索模块基于计算得到的BLEU值结果所做出的判断结果如表10所示:
表10验证集Dval对应标题
步骤(4)构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤。
步骤(5)当输入新的缺陷报告内容后,基于两个过滤器,分别计算出预测结果,①如果两个模块都预测基于该缺陷报告内容,不能生成高质量标题,则输出警告信息;②否则,调用模型MGen,生成缺陷报告的标题。
新输入的缺陷报告内容与两个过滤器的对应预测结果、处理方式如表11所示:
表11新输入缺陷报告内容、对应预测结果、处理方式
为了评估该质量过滤器的表现,采用本领域研究工作中常用的Rouge-1、Rouge-2、Rouge-L值作为评估指标。
为说明本发明的实验效果,采用不使用该质量过滤器和仅采用深度学习模块或仅采用信息检索模块的结果作为基准进行比较。为了使得结果尽可能客观化、标准化,使用了同样的向量生成模型生成对应向量,并采用了目前被广泛使用的rouge库中封装好的已有函数来评估结果。在相同的实验框架下,使用一致的随机种子,采用留出法划分训练集、验证集、测试集,确保了条件严格一致。
该专利与所用各种基准对照方法的Rouge-1、Rouge-2、Rouge-L值对照如表12所示。
表12该专利方法与各基准方法各模块与总体预测Rouge-1、Rouge-2、Rouge-L值对照表
从上表可以看出,在领域内得到广泛应用与承认的Rouge指标上,相比常用的深度学习方法,本发明能够在保留率尽可能高的同时,达成最优的保留效果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于质量过滤器的缺陷报告标题自动生成方法,其特征在于,包括以下步骤:
(1)从GitHub上选择高质量开源项目,通过爬虫技术搜集开源项目内的缺陷报告内容和标题以构建数据集D,随后按照80%:20%的比例依次构造训练集Dtrain和验证集Dval;
(2)对训练集Dtrain和验证集Dval进行数据预处理,用于提升数据集质量;
(3)基于训练集Dtrain和验证集Dval,使用基于注意力机制的seq2seq深度学习模型构建标题自动生成模型MGen;
(4)构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤;
(5)当输入新的缺陷报告内容后,基于两个过滤器,分别计算出预测结果,①如果两个模块都预测基于该缺陷报告内容,不能生成高质量标题,则输出警告信息;②否则,调用模型MGen,生成缺陷报告的标题;
其中,步骤(2)具体包括以下步骤:
2-1)首先使用正则表达式,过滤并移除数据集中的三类低质量缺陷报告:
①标题长度少于5个单词或大于15个单词或含有URL的;
②标题中有超过70%的单词未在内容中出现的;
③占标题70%以上长度的字符串出现在缺陷报告内容中;
2-2)对缺陷报告的标题和内容进行进一步处理,使用正则表达式筛选出开发人员自己定义的变量名和版本号,在自定义的变量名前后插入“<I>”、“<I$>”标识符,在版本号前后插入“<V>”、“<V$>”标识符;通过上述处理,使得seq2seq深度学习模型在学习的时候保留些变量名和版本号的信息,并且在生成标题时直接复制这些信息,从而生成高质量标题;
所述步骤(3)中,构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤,具体包括如下步骤:
3-1)基于训练集Dtrain和验证集Dval,构建基于深度学习的质量过滤器模块;
①使用模型MGen,为训练集Dtrain和验证集Dval中的缺陷报告生成标题;
②依次计算训练集Dtrain和验证集Dval中每个缺陷报告生成标题和原标题间的BLEU指标值,BLEU指标可以评估两段文字之间的相似度,基于BLEU指标值构造训练基于深度学习的质量过滤器模块的数据集Dqua,若BLEU指标取值超过0.1,则将该缺陷报告的标签赋值为1,否则将该缺陷报告的标签赋值为0;
③将数据集Dqua按照70%和30%的比例进行分层采样以形成训练集和验证集,并基于该训练集和验证集,基于Transformer构建出基于深度学习的质量过滤器模块;
Transformer的超参和对应取值如下:
所述Transformer模型的编码器数量设置为两个;
所述Transformer模型的注意力头数设置为五个;
所述Transformer模型的词向量维度设置为300;
所述Transformer模型的隐藏层数量设置为两层;
所述Transformer模型的最大输入长度设置为100;
所述Transformer模型的dropout设置为0.5;
所述Transformer模型的优化器设置为Adam;
所述Transformer模型的学习率设置为0.001;
所述Transformer模型的一次训练所抓取的数据样本数量设置为256;
所述Transformer模型的激活函数设置为Relu;
④将需要生成标题的缺陷报告内容Issuenew,输入到基于深度学习的质量过滤器模块中,预测出是否可以生成高质量标题;
3-2)构建基于信息检索的质量过滤器模块;
①依次取出训练集Dtrain和验证集Dval中的缺陷报告,将缺陷报告内容用TF-IDF向量进行表示;
②将需要生成标题的缺陷报告内容Issuenew同样用TF-IDF向量进行表示;
③随后基于信息检索的质量过滤器模块,基于余弦相似度,依次计算需要生成标题的缺陷报告Issuenew与训练集Dtrain和验证集Dval内的缺陷报告的相似度,并从中选出最为相似的前五个缺陷报告;
④接着基于BLEU指标,从这前五个缺陷报告中进一步选出BLEU值最高的缺陷报告,若其BLEU取值低于0.1,则预测针对缺陷报告内容Issuenew,不能生成高质量标题,否则预测生成高质量标题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379210.0A CN114676298B (zh) | 2022-04-12 | 2022-04-12 | 一种基于质量过滤器的缺陷报告标题自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379210.0A CN114676298B (zh) | 2022-04-12 | 2022-04-12 | 一种基于质量过滤器的缺陷报告标题自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114676298A CN114676298A (zh) | 2022-06-28 |
CN114676298B true CN114676298B (zh) | 2024-04-19 |
Family
ID=82078918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210379210.0A Active CN114676298B (zh) | 2022-04-12 | 2022-04-12 | 一种基于质量过滤器的缺陷报告标题自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676298B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424208A (zh) * | 2013-08-22 | 2015-03-18 | 腾讯科技(北京)有限公司 | 对消息进行过滤处理的方法及装置 |
EP3392780A2 (en) * | 2017-04-19 | 2018-10-24 | Tata Consultancy Services Limited | Systems and methods for classification of software defect reports |
WO2020008365A2 (en) * | 2018-07-02 | 2020-01-09 | 3M Innovative Properties Company | Transferring learning in classifier-based sensing systems |
CN111898337A (zh) * | 2020-07-13 | 2020-11-06 | 武汉大学 | 一种基于深度学习的单句摘要缺陷报告标题自动生成方法 |
CA3142615A1 (en) * | 2019-06-06 | 2020-12-10 | Wisedocs Inc. | System and method for automated file reporting |
KR102198271B1 (ko) * | 2020-05-04 | 2021-01-05 | 호서대학교 산학협력단 | 문서 내에 분산된 사항에 관한 쿼리에 대해 검색결과를 제공하는 방법 |
CN112306730A (zh) * | 2020-11-12 | 2021-02-02 | 南通大学 | 基于历史项目伪标签生成的缺陷报告严重程度预测方法 |
WO2021093140A1 (zh) * | 2019-11-11 | 2021-05-20 | 南京邮电大学 | 一种跨项目软件缺陷预测方法及其系统 |
CA3185638A1 (en) * | 2020-06-01 | 2021-12-09 | The Regents Of The University Of Colorado, A Body Corporate | Social media content filtering for emergency management |
CN114238621A (zh) * | 2021-11-30 | 2022-03-25 | 南通大学 | 一种基于Transformer的编程问题帖标题自动生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11868730B2 (en) * | 2020-09-23 | 2024-01-09 | Jingdong Digits Technology Holding Co., Ltd. | Method and system for aspect-level sentiment classification by graph diffusion transformer |
-
2022
- 2022-04-12 CN CN202210379210.0A patent/CN114676298B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424208A (zh) * | 2013-08-22 | 2015-03-18 | 腾讯科技(北京)有限公司 | 对消息进行过滤处理的方法及装置 |
EP3392780A2 (en) * | 2017-04-19 | 2018-10-24 | Tata Consultancy Services Limited | Systems and methods for classification of software defect reports |
WO2020008365A2 (en) * | 2018-07-02 | 2020-01-09 | 3M Innovative Properties Company | Transferring learning in classifier-based sensing systems |
CA3142615A1 (en) * | 2019-06-06 | 2020-12-10 | Wisedocs Inc. | System and method for automated file reporting |
WO2021093140A1 (zh) * | 2019-11-11 | 2021-05-20 | 南京邮电大学 | 一种跨项目软件缺陷预测方法及其系统 |
KR102198271B1 (ko) * | 2020-05-04 | 2021-01-05 | 호서대학교 산학협력단 | 문서 내에 분산된 사항에 관한 쿼리에 대해 검색결과를 제공하는 방법 |
CA3185638A1 (en) * | 2020-06-01 | 2021-12-09 | The Regents Of The University Of Colorado, A Body Corporate | Social media content filtering for emergency management |
CN111898337A (zh) * | 2020-07-13 | 2020-11-06 | 武汉大学 | 一种基于深度学习的单句摘要缺陷报告标题自动生成方法 |
CN112306730A (zh) * | 2020-11-12 | 2021-02-02 | 南通大学 | 基于历史项目伪标签生成的缺陷报告严重程度预测方法 |
CN114238621A (zh) * | 2021-11-30 | 2022-03-25 | 南通大学 | 一种基于Transformer的编程问题帖标题自动生成方法 |
Non-Patent Citations (3)
Title |
---|
Automated Query Reformulation for Efficient Search based on Query Logs From Stack Overflow;Cao, Kaibo et al;《arXiv》;20211231;全文 * |
一种变粒度缺陷报告严重程度预测方法;贾焱鑫等;《南通大学学报(自然科学版)》;20220331;第21卷(第01期);全文 * |
基于深度学习的安全缺陷报告预测方法实证研究;郑炜;陈军正;吴潇雪;陈翔;夏鑫;;软件学报;20200515(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114676298A (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019263758B2 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
Lu | Automatic analysis of syntactic complexity in second language writing | |
CN112183059A (zh) | 一种中文结构化事件抽取方法 | |
CN104699614B (zh) | 一种软件缺陷组件预测的方法 | |
Xu et al. | A GitHub-based data collection method for software defect prediction | |
US8165987B2 (en) | System and method of machine-aided information extraction rule development | |
CN114676298B (zh) | 一种基于质量过滤器的缺陷报告标题自动生成方法 | |
CN112286799B (zh) | 结合句嵌入和粒子群优化算法的软件缺陷定位方法 | |
CN112579444A (zh) | 基于文本认知的自动分析建模方法、系统、装置及介质 | |
Xu | Exploration of English Composition Diagnosis System Based on Rule Matching. | |
CN117556818A (zh) | 一种基于知识蒸馏和上下文屏蔽窗口的命名实体识别方法 | |
CN116467503A (zh) | 一种基于Bert预训练模型微调的缺陷报告优先级检测方法 | |
Aju et al. | Automatic Monitoring Technology of Business English Document Translation Equipment Based on Logistic Model | |
Leszczenski et al. | What’s in a word? Extending learning factors analysis to model reading transfer | |
Meng et al. | From SATD Recognition to an Interpretation Method Based on the Dataset | |
Pagano | Towards systematic analysis of continuous user input | |
CN117828007B (zh) | 基于自然语言处理的建设征地移民档案管理方法及系统 | |
Wang et al. | A Method to Judge the Style of Classical Poetry Based on Pre-trained Model | |
CN114925204A (zh) | 一种辅助审稿的方法及设备 | |
Golendukhina et al. | Unveiling Data Preprocessing Patterns in Computational Notebooks | |
Yang | A Genre-Based Quality Evaluation of Chinese-English Translation by Online Machine Translation Systems | |
CN117076657A (zh) | 一种基于深度学习的电力中文文本挖掘方法及装置 | |
Liu et al. | Understanding Expert Knowledge for Chinese Essay Grading | |
CN116775871A (zh) | 基于seBERT预训练模型的深度学习软件缺陷报告分类方法 | |
CN118862222A (zh) | 减隔震结构设计参数语义识别及自动合规性审查的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |