CN114676298B - 一种基于质量过滤器的缺陷报告标题自动生成方法 - Google Patents

一种基于质量过滤器的缺陷报告标题自动生成方法 Download PDF

Info

Publication number
CN114676298B
CN114676298B CN202210379210.0A CN202210379210A CN114676298B CN 114676298 B CN114676298 B CN 114676298B CN 202210379210 A CN202210379210 A CN 202210379210A CN 114676298 B CN114676298 B CN 114676298B
Authority
CN
China
Prior art keywords
quality
defect report
title
defect
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210379210.0A
Other languages
English (en)
Other versions
CN114676298A (zh
Inventor
林浩
陈翔
陈雪娇
苏展
缪芸
杨光
刘珂
周彦琳
于池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202210379210.0A priority Critical patent/CN114676298B/zh
Publication of CN114676298A publication Critical patent/CN114676298A/zh
Application granted granted Critical
Publication of CN114676298B publication Critical patent/CN114676298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供了一种基于质量过滤器的缺陷报告标题自动生成方法,属于软件质量保障技术领域。其技术方案为:首先从GitHub上选择高质量开源项目,再对数据集进行数据预处理,训练自动生成模型,当预测新的缺陷报告时,分别基于通过学习低质量缺陷报告特征进行过滤的深度学习模块和通过判断历史数据集中是否存在与新缺陷报告内容相似的数据实现预测的信息检索模块,来协同预测该缺陷报告能否生成高质量标题,若预测能,则通过自动生成模型生成标题,反之则提出警告。本发明的有益效果为:通过使用正则表达式进行数据预处理,提高了数据处理效率和方法的兼容性;通过双模块协同过滤,提高了自动生成模型生成的标题质量与效率。

Description

一种基于质量过滤器的缺陷报告标题自动生成方法
技术领域
本发明涉及软件质量保障技术领域,尤其是一种基于质量过滤器的缺陷报告标题自动生成方法。
背景技术
在现代软件工程的开发过程中,软件缺陷修复一直作为一个重要问题伴随在软件更新迭代和技术快速发展的左右。软件缺陷报告是一种特定的报告,其中包含故障描述信息、堆栈跟踪和其他诊断信息,以帮助开发人员定位和修复软件项目中的错误。在软件项目开发和维护过程中,软件缺陷报告管理十分重要,与软件缺陷修复的效率密切相关。目前,软件缺陷报告分析已经引起了研究人员的广泛关注。
根据专业QA平台Testlio的建议,高质量的软件缺陷报告标题应该为软件缺陷报告主体提供简洁、准确的摘要,使开发者不需要阅读软件缺陷报告正文的详细信息,就可以快速了解软件缺陷报告的核心内容。然而,由于开发者缺乏经验等原因,开源项目的软件缺陷报告标题质量远远不能令人满意。在为缺陷报告命名时,以开发人员手动命名为代表的传统命名方式具有受个人主观因素影响大、不清晰、不准确的缺点,因此,寻找自动化替代方案是大势所趋。为了帮助开发人员生成高质量的软件缺陷报告标题,已经存在一些探索,从而将软件缺陷报告标题生成问题转化为单句摘要问题。此外,为了缓解发行主体中的标识符和版本号引起的低词频问题,一些研究人员提出可以采用令牌标记法等。这在一定程度上提高了方法的效果。
然而,在分析了现有方法生成的软件缺陷报告标题的BLEU分数分布后,发现平均只有19.6%的生成标题的BLEU分数可以超过0.1,现有方法生成的很大一部分标题是低质量的,这可能会误导开发者,使开发者仍旧需要花费许多时间和精力阅读软件缺陷报告,以了解软件缺陷报告内容并确认这些标题的正确性,最终降低开发者对自动化替代方法的信心。为了提高生成标题的质量,一种可能的解决方案是提高现有方法的性能(例如提高数据集的质量或设计新的软件缺陷报告标题生成方法)。目标是从另一个角度解决这个问题,在此基础上提出了一种基于质量预测的过滤器,以使自动化替代方法更实用、更值得信赖。
发明内容
为了解决上述技术问题,本发明提供了一种基于质量过滤器的缺陷报告标题自动生成方法,通过提出两个质量检测模块,并将其有机结合,从而快速且高可靠性地过滤低质量的软件缺陷报告标题自动化生成结果。
为了实现上述发明目的,本发明采用的技术方案具体为:
一种基于质量过滤器的缺陷报告标题自动生成方法,其特征在于,包括如下步骤:
(1)从GitHub上选择高质量开源项目,通过爬虫技术搜集开源项目内的缺陷报告内容和标题以构建数据集D,随后按照80%:20%的比例依次构造训练集Dtrain和验证集Dval
(2)对训练集Dtrain和验证集Dval进行数据预处理,以提升数据集质量;
(3)基于训练集Dtrain和验证集Dval,使用基于注意力机制的seq2seq深度学习模型构建标题自动生成模型MGen
(4)构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤;
(5)当输入新的缺陷报告内容后,基于两个过滤器,分别计算出预测结果,情况一:如果两个模块都预测基于该缺陷报告内容,不能生成高质量标题,则输出警告信息;情况二:否则,调用模型MGen,生成缺陷报告的标题。
进一步地,步骤(2)中对训练集Dtrain和验证集Dval进行数据预处理,以提升数据集质量,具体包括如下步骤:
2-1)首先使用正则表达式,过滤并移除数据集中的三类低质量缺陷报告:①标题长度少于5个单词或大于15个单词或含有URL的,②标题中有超过70%的单词未在内容中出现的,③占标题70%以上长度的字符串出现在缺陷报告内容中;
2-2)对缺陷报告的标题和内容进行进一步处理,具体做法是使用正则表达式筛选出开发人员自己定义的变量名和版本号,在自定义的变量名前后插入“<I>”、“<I$>”标识符,在版本号前后插入“<V>”、“<V$>”标识符;通过上述处理,可以使得seq2seq深度学习模型在学习的时候保留些变量名和版本号的信息,并且可以在生成标题时直接复制这些信息,从而有助于生成高质量标题。
进一步地,步骤(3)中基于训练集Dtrain和验证集Dval,使用基于注意力机制的seq2seq深度学习模型构建标题自动生成模型MGen,具体包括如下步骤:
3-1)基于训练集Dtrain和验证集Dval,构建基于深度学习的质量过滤器模块;
①使用模型MGen,为训练集Dtrain和验证集Dval中的缺陷报告生成标题;
②依次计算训练集Dtrain和验证集Dval中每个缺陷报告生成标题和原标题间的BLEU指标值。BLEU指标可以评估两段文字之间的相似度。基于BLEU指标值可以构造训练基于深度学习的质量过滤器模块的数据集Dqua。即若BLEU指标取值超过0.1,则将该缺陷报告的标签赋值为1,否则将该缺陷报告的标签赋值为0;
③将数据集Dqua按照70%和30%的比例进行分层采样以形成训练集和验证集。并基于该训练集和验证集,基于Transformer构建出基于深度学习的质量过滤器模块;
Transformer的超参和对应取值如下:
所述Transformer模型的编码器数量设置为两个;
所述Transformer模型的注意力头数设置为五个;
所述Transformer模型的词向量维度设置为300;
所述Transformer模型的隐藏层数量设置为两层;
所述Transformer模型的最大输入长度设置为100;
所述Transformer模型的dropout设置为0.5;
所述Transformer模型的优化器设置为Adam;
所述Transformer模型的学习率设置为0.001;
所述Transformer模型的一次训练所抓取的数据样本数量设置为256;
所述Transformer模型的激活函数设置为Relu。
④将需要生成标题的缺陷报告内容Issuenew,输入到基于深度学习的质量过滤器模块中,可以预测出是否可以生成高质量标题。
3-2)构建基于信息检索的质量过滤器模块;
①依次取出训练集Dtrain和验证集Dval中的缺陷报告,将缺陷报告内容用TF-IDF向量进行表示;
②将需要生成标题的缺陷报告内容Issuenew同样用TF-IDF向量进行表示;
③随后基于信息检索的质量过滤器模块,基于余弦相似度,依次计算需要生成标题的缺陷报告Issuenew与训练集Dtrain和验证集Dval内的缺陷报告的相似度,并从中选出最为相似的前五个缺陷报告;
④接着基于BLEU指标,从这前五个缺陷报告中进一步选出BLEU值最高的缺陷报告。若其BLEU取值低于0.1,则预测针对缺陷报告内容Issuenew,不能生成高质量标题,否则预测可以生成高质量标题。
与现有技术相比,本发明的有益效果为:本发明设计了基于信息检索的模块和基于深度学习的模块,并把两个模块相结合起来,提出了一种基于质量预测的过滤器;基于信息检索的模块根据其对应的缺陷报告内容与历史数据库中的缺陷报告内容的相似度来计算分数,有效提高了对历史数据的利用率,并降低了方法的耗时,提高了准确率,平衡了计算成本和该模块的性能;基于深度学习的模块采用了目前最先进的深度学习方法,有效地学习了低质量数据的特征,从而提高了模型的准确性。通过将两个模块结合起来,有效地规避了两个模块各自的缺点,发扬了两个模块各自的优点,从而实现了该创新方法在评测指标上的优良表现。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明基于质量过滤器的缺陷报告标题自动生成方法的整体流程图。
图2为本发明基于质量过滤器的缺陷报告标题自动生成方法中数据预处理阶段的流程子图。
图3为本发明基于质量过滤器的缺陷报告标题自动生成方法中基于深度学习模型的过滤器流程子图。
图4为本发明基于质量过滤器的缺陷报告标题自动生成方法中基于信息检索方法的过滤器流程子图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
步骤(1)从GitHub上选择高质量开源项目,通过爬虫技术搜集开源项目内的缺陷报告内容和标题以构建数据集D,随后按照80%:20%的比例依次构造训练集Dtrain和验证集Dval,因总数据量较大,仅展示其中5条数据,如表1和表2所示:
表1训练集Dtrain(部分数据)
表2验证集Dval(部分数据)
步骤(2)对训练集Dtrain和验证集Dval进行数据预处理,以提升数据集质量。
2-1)首先使用正则表达式,过滤并移除数据集中的三类低质量缺陷报告:①标题长度少于5个单词或大于15个单词或含有URL的,②标题中有超过70%的单词未在内容中出现的,③占标题70%以上长度的字符串出现在缺陷报告内容中;
2-2)对缺陷报告的标题和内容进行进一步处理,具体做法是使用正则表达式筛选出开发人员自己定义的变量名和版本号,在自定义的变量名前后插入“<I>”、“<I$>”标识符,在版本号前后插入“<V>”、“<V$>”标识符;通过上述处理,可以使得seq2seq深度学习模型在学习的时候保留些变量名和版本号的信息,并且可以在生成标题时直接复制这些信息,从而有助于生成高质量标题。
数据预处理后的训练集Dtrain和验证集Dval如表3与表4所示。
表3数据预处理后的训练集Dtrain(部分数据)
表4数据预处理后的验证集Dval(部分数据)
步骤(3)基于训练集Dtrain和验证集Dval,使用基于注意力机制的seq2seq深度学习模型构建标题自动生成模型MGen
3-1)基于训练集Dtrain和验证集Dval,构建基于深度学习的质量过滤器模块;
①使用模型MGen,为训练集Dtrain和验证集Dval中的缺陷报告生成标题;
②依次计算训练集Dtrain和验证集Dval中每个缺陷报告生成标题和原标题间的BLEU指标值。BLEU指标可以评估两段文字之间的相似度。基于BLEU指标值可以构造训练基于深度学习的质量过滤器模块的数据集Dqua。即若BLEU指标取值超过0.1,则将该缺陷报告的标签赋值为1,否则将该缺陷报告的标签赋值为0;
③将数据集Dqua按照70%和30%的比例进行分层采样以形成训练集和验证集。并基于该训练集和验证集,基于Transformer构建出基于深度学习的质量过滤器模块;
Transformer的超参和对应取值如下:
所述Transformer模型的编码器数量设置为两个;
所述Transformer模型的注意力头数设置为五个;
所述Transformer模型的词向量维度设置为300;
所述Transformer模型的隐藏层数量设置为两层;
所述Transformer模型的最大输入长度设置为100;
所述Transformer模型的dropout设置为0.5;
所述Transformer模型的优化器设置为Adam;
所述Transformer模型的学习率设置为0.001;
所述Transformer模型的一次训练所抓取的数据样本数量设置为256;
所述Transformer模型的激活函数设置为Relu。
④将需要生成标题的缺陷报告内容Issuenew,输入到基于深度学习的质量过滤器模块中,可以预测出是否可以生成高质量标题。
模型所生成的对应标题如表5及表6所示:
表5模型所生成的训练集Dtrain对应标题
表6模型所生成的验证集Dval对应标题
算得的训练集Dtrain和验证集Dval中缺陷报告生成标题和原标题间的BLEU指标值结果如表7和表8所示:
表7训练集Dtrain缺陷报告生成标题和原标题间的BLEU指标值结果
表8验证集Dval缺陷报告生成标题和原标题间的BLEU指标值结果
3-2)构建基于信息检索的质量过滤器模块;
①依次取出训练集Dtrain和验证集Dval中的缺陷报告,将缺陷报告内容用TF-IDF向量进行表示;
②将需要生成标题的缺陷报告内容Issuenew同样用TF-IDF向量进行表示;
③随后基于信息检索的质量过滤器模块,基于余弦相似度,依次计算需要生成标题的缺陷报告Issuenew与训练集Dtrain和验证集Dval内的缺陷报告的相似度,并从中选出最为相似的前五个缺陷报告;
④接着基于BLEU指标,从这前五个缺陷报告中进一步选出BLEU值最高的缺陷报告。若其BLEU取值低于0.1,则预测针对缺陷报告内容Issuenew,不能生成高质量标题,否则预测可以生成高质量标题。
缺陷报告内容所对应TF-IDF向量计算得到的结果样例如表9所示:
表9 TF-IDF向量计算结果样例
新输入缺陷报告内容、历史数据库中最相似五个缺陷报告及计算得到的最相似缺陷报告内容BLEU值、信息检索模块基于计算得到的BLEU值结果所做出的判断结果如表10所示:
表10验证集Dval对应标题
步骤(4)构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤。
步骤(5)当输入新的缺陷报告内容后,基于两个过滤器,分别计算出预测结果,①如果两个模块都预测基于该缺陷报告内容,不能生成高质量标题,则输出警告信息;②否则,调用模型MGen,生成缺陷报告的标题。
新输入的缺陷报告内容与两个过滤器的对应预测结果、处理方式如表11所示:
表11新输入缺陷报告内容、对应预测结果、处理方式
为了评估该质量过滤器的表现,采用本领域研究工作中常用的Rouge-1、Rouge-2、Rouge-L值作为评估指标。
为说明本发明的实验效果,采用不使用该质量过滤器和仅采用深度学习模块或仅采用信息检索模块的结果作为基准进行比较。为了使得结果尽可能客观化、标准化,使用了同样的向量生成模型生成对应向量,并采用了目前被广泛使用的rouge库中封装好的已有函数来评估结果。在相同的实验框架下,使用一致的随机种子,采用留出法划分训练集、验证集、测试集,确保了条件严格一致。
该专利与所用各种基准对照方法的Rouge-1、Rouge-2、Rouge-L值对照如表12所示。
表12该专利方法与各基准方法各模块与总体预测Rouge-1、Rouge-2、Rouge-L值对照表
从上表可以看出,在领域内得到广泛应用与承认的Rouge指标上,相比常用的深度学习方法,本发明能够在保留率尽可能高的同时,达成最优的保留效果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于质量过滤器的缺陷报告标题自动生成方法,其特征在于,包括以下步骤:
(1)从GitHub上选择高质量开源项目,通过爬虫技术搜集开源项目内的缺陷报告内容和标题以构建数据集D,随后按照80%:20%的比例依次构造训练集Dtrain和验证集Dval
(2)对训练集Dtrain和验证集Dval进行数据预处理,用于提升数据集质量;
(3)基于训练集Dtrain和验证集Dval,使用基于注意力机制的seq2seq深度学习模型构建标题自动生成模型MGen
(4)构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤;
(5)当输入新的缺陷报告内容后,基于两个过滤器,分别计算出预测结果,①如果两个模块都预测基于该缺陷报告内容,不能生成高质量标题,则输出警告信息;②否则,调用模型MGen,生成缺陷报告的标题;
其中,步骤(2)具体包括以下步骤:
2-1)首先使用正则表达式,过滤并移除数据集中的三类低质量缺陷报告:
①标题长度少于5个单词或大于15个单词或含有URL的;
②标题中有超过70%的单词未在内容中出现的;
③占标题70%以上长度的字符串出现在缺陷报告内容中;
2-2)对缺陷报告的标题和内容进行进一步处理,使用正则表达式筛选出开发人员自己定义的变量名和版本号,在自定义的变量名前后插入“<I>”、“<I$>”标识符,在版本号前后插入“<V>”、“<V$>”标识符;通过上述处理,使得seq2seq深度学习模型在学习的时候保留些变量名和版本号的信息,并且在生成标题时直接复制这些信息,从而生成高质量标题;
所述步骤(3)中,构建基于双模块的质量过滤器,两个模块分别基于信息检索方法和深度学习方法构建,实现协同过滤,具体包括如下步骤:
3-1)基于训练集Dtrain和验证集Dval,构建基于深度学习的质量过滤器模块;
①使用模型MGen,为训练集Dtrain和验证集Dval中的缺陷报告生成标题;
②依次计算训练集Dtrain和验证集Dval中每个缺陷报告生成标题和原标题间的BLEU指标值,BLEU指标可以评估两段文字之间的相似度,基于BLEU指标值构造训练基于深度学习的质量过滤器模块的数据集Dqua,若BLEU指标取值超过0.1,则将该缺陷报告的标签赋值为1,否则将该缺陷报告的标签赋值为0;
③将数据集Dqua按照70%和30%的比例进行分层采样以形成训练集和验证集,并基于该训练集和验证集,基于Transformer构建出基于深度学习的质量过滤器模块;
Transformer的超参和对应取值如下:
所述Transformer模型的编码器数量设置为两个;
所述Transformer模型的注意力头数设置为五个;
所述Transformer模型的词向量维度设置为300;
所述Transformer模型的隐藏层数量设置为两层;
所述Transformer模型的最大输入长度设置为100;
所述Transformer模型的dropout设置为0.5;
所述Transformer模型的优化器设置为Adam;
所述Transformer模型的学习率设置为0.001;
所述Transformer模型的一次训练所抓取的数据样本数量设置为256;
所述Transformer模型的激活函数设置为Relu;
④将需要生成标题的缺陷报告内容Issuenew,输入到基于深度学习的质量过滤器模块中,预测出是否可以生成高质量标题;
3-2)构建基于信息检索的质量过滤器模块;
①依次取出训练集Dtrain和验证集Dval中的缺陷报告,将缺陷报告内容用TF-IDF向量进行表示;
②将需要生成标题的缺陷报告内容Issuenew同样用TF-IDF向量进行表示;
③随后基于信息检索的质量过滤器模块,基于余弦相似度,依次计算需要生成标题的缺陷报告Issuenew与训练集Dtrain和验证集Dval内的缺陷报告的相似度,并从中选出最为相似的前五个缺陷报告;
④接着基于BLEU指标,从这前五个缺陷报告中进一步选出BLEU值最高的缺陷报告,若其BLEU取值低于0.1,则预测针对缺陷报告内容Issuenew,不能生成高质量标题,否则预测生成高质量标题。
CN202210379210.0A 2022-04-12 2022-04-12 一种基于质量过滤器的缺陷报告标题自动生成方法 Active CN114676298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210379210.0A CN114676298B (zh) 2022-04-12 2022-04-12 一种基于质量过滤器的缺陷报告标题自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210379210.0A CN114676298B (zh) 2022-04-12 2022-04-12 一种基于质量过滤器的缺陷报告标题自动生成方法

Publications (2)

Publication Number Publication Date
CN114676298A CN114676298A (zh) 2022-06-28
CN114676298B true CN114676298B (zh) 2024-04-19

Family

ID=82078918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210379210.0A Active CN114676298B (zh) 2022-04-12 2022-04-12 一种基于质量过滤器的缺陷报告标题自动生成方法

Country Status (1)

Country Link
CN (1) CN114676298B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424208A (zh) * 2013-08-22 2015-03-18 腾讯科技(北京)有限公司 对消息进行过滤处理的方法及装置
EP3392780A2 (en) * 2017-04-19 2018-10-24 Tata Consultancy Services Limited Systems and methods for classification of software defect reports
WO2020008365A2 (en) * 2018-07-02 2020-01-09 3M Innovative Properties Company Transferring learning in classifier-based sensing systems
CN111898337A (zh) * 2020-07-13 2020-11-06 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CA3142615A1 (en) * 2019-06-06 2020-12-10 Wisedocs Inc. System and method for automated file reporting
KR102198271B1 (ko) * 2020-05-04 2021-01-05 호서대학교 산학협력단 문서 내에 분산된 사항에 관한 쿼리에 대해 검색결과를 제공하는 방법
CN112306730A (zh) * 2020-11-12 2021-02-02 南通大学 基于历史项目伪标签生成的缺陷报告严重程度预测方法
WO2021093140A1 (zh) * 2019-11-11 2021-05-20 南京邮电大学 一种跨项目软件缺陷预测方法及其系统
CA3185638A1 (en) * 2020-06-01 2021-12-09 The Regents Of The University Of Colorado, A Body Corporate Social media content filtering for emergency management
CN114238621A (zh) * 2021-11-30 2022-03-25 南通大学 一种基于Transformer的编程问题帖标题自动生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11868730B2 (en) * 2020-09-23 2024-01-09 Jingdong Digits Technology Holding Co., Ltd. Method and system for aspect-level sentiment classification by graph diffusion transformer

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424208A (zh) * 2013-08-22 2015-03-18 腾讯科技(北京)有限公司 对消息进行过滤处理的方法及装置
EP3392780A2 (en) * 2017-04-19 2018-10-24 Tata Consultancy Services Limited Systems and methods for classification of software defect reports
WO2020008365A2 (en) * 2018-07-02 2020-01-09 3M Innovative Properties Company Transferring learning in classifier-based sensing systems
CA3142615A1 (en) * 2019-06-06 2020-12-10 Wisedocs Inc. System and method for automated file reporting
WO2021093140A1 (zh) * 2019-11-11 2021-05-20 南京邮电大学 一种跨项目软件缺陷预测方法及其系统
KR102198271B1 (ko) * 2020-05-04 2021-01-05 호서대학교 산학협력단 문서 내에 분산된 사항에 관한 쿼리에 대해 검색결과를 제공하는 방법
CA3185638A1 (en) * 2020-06-01 2021-12-09 The Regents Of The University Of Colorado, A Body Corporate Social media content filtering for emergency management
CN111898337A (zh) * 2020-07-13 2020-11-06 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CN112306730A (zh) * 2020-11-12 2021-02-02 南通大学 基于历史项目伪标签生成的缺陷报告严重程度预测方法
CN114238621A (zh) * 2021-11-30 2022-03-25 南通大学 一种基于Transformer的编程问题帖标题自动生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Automated Query Reformulation for Efficient Search based on Query Logs From Stack Overflow;Cao, Kaibo et al;《arXiv》;20211231;全文 *
一种变粒度缺陷报告严重程度预测方法;贾焱鑫等;《南通大学学报(自然科学版)》;20220331;第21卷(第01期);全文 *
基于深度学习的安全缺陷报告预测方法实证研究;郑炜;陈军正;吴潇雪;陈翔;夏鑫;;软件学报;20200515(05);全文 *

Also Published As

Publication number Publication date
CN114676298A (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
Lu Automatic analysis of syntactic complexity in second language writing
CN112183059A (zh) 一种中文结构化事件抽取方法
CN104699614B (zh) 一种软件缺陷组件预测的方法
Xu et al. A GitHub-based data collection method for software defect prediction
US8165987B2 (en) System and method of machine-aided information extraction rule development
CN114676298B (zh) 一种基于质量过滤器的缺陷报告标题自动生成方法
CN112286799B (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN112579444A (zh) 基于文本认知的自动分析建模方法、系统、装置及介质
Xu Exploration of English Composition Diagnosis System Based on Rule Matching.
CN117556818A (zh) 一种基于知识蒸馏和上下文屏蔽窗口的命名实体识别方法
CN116467503A (zh) 一种基于Bert预训练模型微调的缺陷报告优先级检测方法
Aju et al. Automatic Monitoring Technology of Business English Document Translation Equipment Based on Logistic Model
Leszczenski et al. What’s in a word? Extending learning factors analysis to model reading transfer
Meng et al. From SATD Recognition to an Interpretation Method Based on the Dataset
Pagano Towards systematic analysis of continuous user input
CN117828007B (zh) 基于自然语言处理的建设征地移民档案管理方法及系统
Wang et al. A Method to Judge the Style of Classical Poetry Based on Pre-trained Model
CN114925204A (zh) 一种辅助审稿的方法及设备
Golendukhina et al. Unveiling Data Preprocessing Patterns in Computational Notebooks
Yang A Genre-Based Quality Evaluation of Chinese-English Translation by Online Machine Translation Systems
CN117076657A (zh) 一种基于深度学习的电力中文文本挖掘方法及装置
Liu et al. Understanding Expert Knowledge for Chinese Essay Grading
CN116775871A (zh) 基于seBERT预训练模型的深度学习软件缺陷报告分类方法
CN118862222A (zh) 减隔震结构设计参数语义识别及自动合规性审查的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant