CN113011179A - 一种基于缺陷报告摘要中词性信息的严重程度预测方法 - Google Patents
一种基于缺陷报告摘要中词性信息的严重程度预测方法 Download PDFInfo
- Publication number
- CN113011179A CN113011179A CN202110341218.3A CN202110341218A CN113011179A CN 113011179 A CN113011179 A CN 113011179A CN 202110341218 A CN202110341218 A CN 202110341218A CN 113011179 A CN113011179 A CN 113011179A
- Authority
- CN
- China
- Prior art keywords
- defect report
- data set
- severity
- abstract
- defect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007547 defect Effects 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 45
- 230000011218 segmentation Effects 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 22
- 238000007670 refining Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000010348 incorporation Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008439 repair process Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于缺陷报告摘要中词性信息的严重程度预测方法,通过使用较少数据量实现相近或更优的预测性能,并进一步地利用软件缺陷报告跟踪系统平台上存放的大型项目所含缺陷报告,进行快速且高准确性的软件缺陷报告严重程度的预测。本发明的有益效果为:本发明预测方法首先对缺陷报告中的摘要属性进行文本预处理,得到词根形式的分词;基于大规模文本语料库使用卷积神经网络模型训练,获得包含所属各分词词性和单词间相似度邻接矩阵的Spacy模型,进一步对分词进行筛选,随机抽取并生成相似数据扩充数据集,最终实现对缺陷报告严重程度的预测,相比于其他预测方法使用较少数据实现了更优性能。
Description
技术领域
本发明涉及软件质量保障技术领域,尤其涉及一种基于缺陷报告摘要中词性信息的严重程度预测方法。
背景技术
开发者不可能开发出完全没有缺陷的项目,正如开发者不可能在发现一个缺陷以前意识到它的存在。正因如此,要充分保证项目的代码质量和用户体验,开发者就必须投入足够多的人力物力以确保每一个影响到代码质量或用户体验的缺陷都能够得到及时修复。为了更高效地跟踪和修复项目缺陷,目前行业内的通行做法是建立一个缺陷报告跟踪系统。用户将所认为的缺陷写成报告提交给缺陷报告跟踪系统,并按项目要求标注缺陷所对应的严重程度以便开发人员确定该缺陷修复的优先级,开发人员根据用户所提供的运行环境、复现步骤等信息确定是否存在缺陷并根据优先级进行修复作业。然而,在实际操作过程中,由于用户的经验、能力参差不齐,观察和考虑问题的角度不胜枚举,尽管有一些或约定俗成,或明文规定的提交规范,用户所提交的缺陷报告严重程度未必符合开发人员的标准,进而造成了缺陷修复的延误与人力物力的浪费。因此,借助机器学习等方法实现自动化的缺陷报告严重程度标注,便成了上佳之选。
软件缺陷报告的严重性主要包括Blocker、Critical、Major、Normal、Minor、Trivial和Enhancement七个级别,其中Normal级别由于是默认归类缺陷标签,在研究过程中往往会被归类为不可信缺陷,Blocker、Critical和Major级别的缺陷归类为严重缺陷,而其他级别的缺陷归类为非严重缺陷。
近年来在软件缺陷报告严重程度预测领域,大多数研究工作者在大规模或超大规模数据集的基础上,采用分类或回归的方法,通过使用缺陷报告的某些内容训练模型来实现对软件缺陷报告严重程度的预测。但在实际应用场景中,数据集质量参差不齐、数据集的规模难以保证等问题影响了预测模型性能的进一步提升。
发明内容
本发明的目的在于提供一种基于缺陷报告摘要中词性信息的严重程度预测方法,通过使用较少数据量实现相近或更优的预测性能,并进一步地利用软件缺陷报告跟踪系统平台上存放的大型项目所含缺陷报告,进行快速且高准确性的软件缺陷报告严重程度的预测。
本发明是通过如下措施实现的:一种基于缺陷报告摘要中词性信息的严重程度预测方法,包括如下步骤:
(1)从缺陷报告跟踪系统中,搜集已标记严重程度且严重程度为Blocker、Critical、Major、Minor、Trivial和Enhancement的缺陷报告,其中将严重程度为Blocker、Critical、Major的缺陷报告对应严重程度统一设置为“严重”类型,将严重程度为Minor、Trivial、Enhancement的缺陷报告对应严重程度统一设置为“不严重”类型,针对所搜集缺陷报告的摘要进行文本预处理,具体包括:分词、停顿词移除与词形还原,得到词根形式的分词;
(2)基于OntoNotes 5语料库、GloVe Common Crawl语料库和所述分词组成的大规模文本语料库,使用卷积神经网络模型进行训练,训练出Spacy模型;
(3)对各缺陷报告进行筛选提炼,得到初始数据集Dorg;
(4)针对所述初始数据集Dorg,进行数据集扩充,获得扩充后的训练数据集Dtrain;
(5)基于步骤(2)训练得到的Spacy模型,将训练数据集Dtrain中各缺陷报告的摘要表示并替换为对应向量。具体的,针对单个分词,使用Spacy词向量对其进行相应分词的词向量表示,然后累加该缺陷报告摘要所包含的所有分词的对应词向量并求平均,得到相应缺陷报告摘要的对应向量;
(6)基于所述训练数据集Dtrain,采用逻辑回归分类方法,构建缺陷报告严重程度预测模型M;
(7)针对项目内需要进行严重程度预测的新的缺陷报告,对其摘要进行文本预处理后,仅保留其中词性为动词和名词的分词,然后通过Spacy模型生成其摘要所对应的向量,并累加该缺陷报告摘要所包含的所有分词的对应词向量并求平均,输入步骤(6)所构建的缺陷报告严重程度预测模型M,得到其严重程度。
进一步地,步骤(3)中对各缺陷报告进行筛选提炼,得到初始数据集Dorg,具体包括如下步骤:
3-1)定义一个空的数据集Dorg,并从步骤(1)中所述的摘要经过文本预处理,严重程度被统一设置后的缺陷报告集中取出第一份缺陷报告;
3-2)对取出的缺陷报告,基于步骤(2)训练得到的Spacy模型,分析得到其摘要中所含各分词的词性,并对其摘要进行筛选提炼,即仅保留其中词性为动词和名词的分词。这里仅保留词性为动词和名词的分词,是由于形容词和副词等词性的分词往往对句子起修饰作用,而词性为动词和名词的分词则往往是句子结构的关键组成部分,承担了句意的主要阐述功能,对把握句子的关键语义起到关键作用。因此仅保留词性为动词和名词的分词,有利于过滤数据集中的噪音数据,从而在减少模型训练所需数据量的同时,提高模型性能;
3-3)针对该取出的缺陷报告生成新的实例,该实例包括其在步骤3-2)中所筛选提炼后的摘要和其所对应的严重程度。将该实例加入数据集Dorg;
3-4)若步骤3-1)中所述缺陷报告集中还有未经过步骤3-2)、3-3)的缺陷报告,则取出下一份缺陷报告,并重复步骤3-2)、3-3),否则结束循环,并返回数据集Dorg;
进一步地,所述步骤(4)中,针对所述数据集Dorg,进行数据集扩充,获得扩充后的训练数据集Dtrain,具体包括如下步骤:
4-1)生成一个空的训练数据集Dtrain,基于步骤(2)的大规模文本语料库,通过Spacy模型获取所述语料库中所有分词间的相似度邻接矩阵,通过该矩阵,可以得到不同分词间的语义相似度;
4-2)从数据集Dorg中随机选择x份缺陷报告,并构成数据集Drandom,x由操作人员根据实际情况指定,x为整数,且取值不超过N,其中N为数据集Dorg所含缺陷报告总数。从数据集Drandom中取出第一份缺陷报告b;
4-3)根据取出的缺陷报告b,生成虚拟缺陷报告b’。具体来说,b’的初始摘要为空,严重程度与b相同,依次取出b的摘要中所含的所有分词。对每次取出的分词w,从文本语料库中找出与其相似度最高并且词性相同的一个分词w’,如果w与w’间的语义相似度低于操作人员指定的阈值γ,则不添加w’到b’的摘要中,否则添加w’到b’的摘要中,当b的摘要所含所有分词均已取出后,将虚拟缺陷报告b’加入训练数据集;
4-4)从数据集Drandom中取出下一份缺陷报告b,重复步骤4-2)直至数据集Drandom中的所有缺陷报告均已执行步骤4-3),随后将数据集Dorg并入训练数据集Dtrain,返回扩充后的训练数据集Dtrain。
与现有技术相比,本发明的有益效果为:
(1)、本发明预测方法首先对缺陷报告中的摘要属性进行文本预处理,得到词根形式的分词;基于大规模文本语料库使用卷积神经网络模型训练,获得包含所属各分词词性和单词间相似度邻接矩阵的Spacy模型,进一步对分词进行筛选,随机抽取并生成相似数据扩充数据集,最终实现对缺陷报告严重程度的预测,相比于其他预测方法使用较少数据实现了更优性能。
(2)、本发明预测方法对缺陷报告中的摘要属性进行文本预处理排除了部分文本噪音,可保证训练数据集质量;基于大规模文本语料库使用卷积神经网络模型训练Spacy模型确保了分词词性判断的准确度和单词间相似度的计算精准度;对分词进行筛选确保了数据集的精简凝练;随机抽取并生成相似数据有效扩大了可靠数据集的规模;通过缺陷报告摘要中词性信息进行数据筛选并生成相似数据,有利于把握摘要文本的主干信息,进而使用较少数据实现了更优的预测性能。
(3)、在Bugzilla、CDT、JDT、Core、Firefox、Platform、Thunderbird等七个业内常用数据集上,本发明的预测方法仅使用常规方法45.01%-50.43%的数据量,即实现了与常规方法同等甚至更优的严重程度预测效果;该预测方法使用方便,原理易于业内人士理解,对数据量需求更小的同时实现了可靠性上的提升。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明基于缺陷报告摘要中词性信息的严重程度预测方法的流程图。
图2为本发明基于缺陷报告摘要中词性信息的严重程度预测方法中训练生成阶段的流程子图。
图3为本发明基于缺陷报告摘要中词性信息的严重程度预测方法中统一设置阶段的流程子图。
图4为本发明基于缺陷报告摘要中词性信息的严重程度预测方法中筛选提炼阶段的流程子图。
图5为本发明基于缺陷报告摘要中词性信息的严重程度预测方法中数据集扩充阶段的流程子图。
图6为本发明基于缺陷报告摘要中词性信息的严重程度预测方法中词向量生成阶段的流程子图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
参见图1至图6,本发明提供其技术方案为,一种基于缺陷报告摘要中词性信息的严重程度预测方法:
步骤(1)从缺陷报告跟踪系统中,搜集已标记严重程度且严重程度为Blocker、Critical、Major、Minor、Trivial和Enhancement的缺陷报告,其中将严重程度为Blocker、Critical、Major的缺陷报告对应严重程度统一设置为“严重”类型,将严重程度为Minor、Trivial、Enhancement的缺陷报告对应严重程度统一设置为“不严重”类型,针对所搜集缺陷报告的摘要进行文本预处理,具体包括:分词、停顿词移除与词形还原,得到词根形式的分词;因总数据量较大,选择前5条展示,如表1所示:
表1部分分词词根(前5条)
步骤(2)基于OntoNotes 5语料库、GloVe Common Crawl语料库和所述分词组成的大规模文本语料库,使用卷积神经网络模型进行训练,训练出Spacy模型;
步骤(3)对各缺陷报告进行筛选提炼,得到初始数据集Dorg;
3.1、定义一个空的数据集Dorg,并从步骤(1)中所述的摘要经过文本预处理,严重程度被统一设置后的缺陷报告集中取出第一份缺陷报告;
3.2、对取出的缺陷报告,基于步骤(2)训练得到的Spacy模型,分析得到其摘要中所含各分词的词性,并对其摘要进行筛选提炼,即仅保留其中词性为动词和名词的分词。这里仅保留词性为动词和名词的分词,是由于形容词和副词等词性的分词往往对句子起修饰作用,而词性为动词和名词的分词则往往是句子结构的关键组成部分,承担了句意的主要阐述功能,对把握句子的关键语义起到关键作用。因此仅保留词性为动词和名词的分词,有利于过滤数据集中的噪音数据,从而在减少模型训练所需数据量的同时,提高模型性能。
3.3、针对该取出的缺陷报告生成新的实例,该实例包括其在步骤3.2中所筛选提炼后的摘要和其所对应的严重程度。将该实例加入数据集Dorg。
3.4、若步骤3.1中所述缺陷报告集中还有未经过步骤3.2、3.3的缺陷报告,则取出下一份缺陷报告,并重复步骤3.2、3.3,否则结束循环,并返回数据集Dorg。
因总数据量较大,选择前5条展示,数据集Dorg如表2所示:
表2数据集Dorg(前5条)
(4)针对所述初始数据集Dorg,进行数据集扩充,获得扩充后的训练数据集Dtrain。
4.1、生成一个空的训练数据集Dtrain。基于步骤(2)的大规模文本语料库,通过Spacy模型获取所述语料库中所有分词间的相似度邻接矩阵,通过该矩阵,可以得到不同分词间的语义相似度。
4.2、从数据集Dorg中随机选择x份缺陷报告,并构成数据集Drandom,x由操作人员根据实际情况指定,x为整数,且取值不超过N,其中N为数据集Dorg所含缺陷报告总数。从数据集Drandom中取出第一份缺陷报告b。
4.3、根据取出的缺陷报告b,生成虚拟缺陷报告b’。具体来说,b’的初始摘要为空,严重程度与b相同。依次取出b的摘要中所含的所有分词。对每次取出的分词w,从文本语料库中找出与其相似度最高并且词性相同的一个分词w’,如果w与w’间的语义相似度低于操作人员指定的阈值γ,则不添加w’到b’的摘要中,否则添加w’到b’的摘要中。当b的摘要所含所有分词均已取出后,将虚拟缺陷报告b’加入训练数据集Dtrain。
4.4、从数据集Drandom中取出下一份缺陷报告b,重复步骤4.2直至数据集Drandom中的所有缺陷报告均已执行步骤4.3,随后将数据集Dorg并入训练数据集Dtrain,返回扩充后的训练数据集Dtrain。
对数据集Dorg随机选择全部,采用阈值为0.3,每一个单词都替换为0或1个最相似的同词性单词后,新生成的扩充后的训练数据集Dtrain如表3所示:
表3训练数据集Dtrain
(5)基于步骤(2)训练得到的Spacy模型,将训练数据集Dtrain中各缺陷报告的摘要表示并替换为对应向量。具体的,针对单个分词,使用Spacy词向量对其进行相应分词的词向量表示,然后累加该缺陷报告摘要所包含的所有分词的对应词向量并求平均,得到相应缺陷报告摘要的对应向量。处理后的训练数据集Dtrain如表4所示:
表4处理后的训练数据集Dtrain
(6)基于所述训练数据集Dtrain,采用逻辑回归分类方法,构建缺陷报告严重程度预测模型M。
(7)针对项目内需要进行严重程度预测的新的缺陷报告,对其摘要进行文本预处理后,仅保留其中词性为动词和名词的分词,然后通过Spacy模型生成其摘要所对应的向量,并累加该缺陷报告摘要所包含的所有分词的对应词向量并求平均,输入步骤(6)所构建的缺陷报告严重程度预测模型M,得到其严重程度。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于缺陷报告摘要中词性信息的严重程度预测方法,其特征在于,包括如下步骤:
S1:从缺陷报告跟踪系统中搜集已标记严重程度且严重程度为Blocker、Critical、Major、Minor、Trivial和Enhancement的缺陷报告,将严重程度为Blocker、Critical、Major的缺陷报告对应严重程度统一设置为“严重”类型,将严重程度为Minor、Trivial、Enhancement的缺陷报告对应严重程度统一设置为“不严重”类型,针对所搜集缺陷报告的摘要进行文本预处理,具体包括:分词、停顿词移除与词形还原,得到词根形式的分词;
S2:基于OntoNotes5语料库、GloVe Common Crawl语料库和所述分词组成的大规模文本语料库,使用卷积神经网络模型进行训练,训练出Spacy模型;
S3:对各缺陷报告进行筛选提炼,得到初始数据集Dorg;
S4:针对所述初始数据集Dorg,进行数据集扩充,获得扩充后的训练数据集Dtrain;
S5:基于步骤S2训练得到的Spacy模型,将训练数据集中各缺陷报告的摘要表示并替换为对应向量;针对单个分词,使用Spacy词向量对其进行相应分词的词向量表示,累加该缺陷报告摘要所包含的所有分词的对应词向量并求平均,得到相应缺陷报告摘要的对应向量;
S6:基于所述训练数据集Dtrain,采用逻辑回归分类方法,构建缺陷报告严重程度预测模型M;
S7:针对项目内需要进行严重程度预测的新的缺陷报告,对其摘要进行文本预处理后,仅保留其中词性为动词和名词的分词,通过Spacy模型生成其摘要所对应的向量,并累加该缺陷报告摘要所包含的所有分词的对应词向量并求平均,输入步骤S6所构建的缺陷报告严重程度预测模型M,得到其严重程度。
2.根据权利要求1所述的基于缺陷报告摘要中词性信息的严重程度预测方法,其特征在于,所述步骤S3中对各缺陷报告进行筛选提炼,得到初始数据集Dorg,具体包括如下步骤:
S301:定义一个空的数据集Dorg,并从步骤S1中所述的摘要经过文本预处理,严重程度被统一设置后的缺陷报告集中取出第一份缺陷报告;
S302:对取出的缺陷报告,基于步骤S2训练得到的Spacy模型,分析得到其摘要中所含各分词的词性,并对其摘要进行筛选提炼,保留其中词性为动词和名词的分词,保留词性为动词和名词的分词;
S303:针对该取出的缺陷报告生成新的实例,该实例包括其在步骤S302中所筛选提炼后的摘要和其所对应的严重程度,将该实例加入数据集Dorg;
S304:若步骤S301中所述缺陷报告集中还有未经过步骤S302、S303的缺陷报告,则取出下一份缺陷报告,并重复步骤S302、S303,否则结束循环,并返回数据集Dorg。
3.根据权利要求1或2所述的基于缺陷报告摘要中词性信息的严重程度预测方法,其特征在于,所述步骤S4中,针对所述数据集Dorg进行数据集扩充,获得扩充后的训练数据集Dtrain,具体包括如下步骤:
S401:生成一个空的训练数据集Dtrain,基于步骤S2的大规模文本语料库,通过Spacy模型获取所述语料库中所有分词间的相似度邻接矩阵,通过该矩阵,得到不同分词间的语义相似度;
S402:从数据集Dorg中随机选择x份缺陷报告,并构成数据集Drandom,x由操作人员根据实际情况指定,x为整数,且取值不超过N,其中,N为数据集Dorg所含缺陷报告总数,从数据集Drandom中取出第一份缺陷报告b;
S403:根据取出的缺陷报告b,生成虚拟缺陷报告b’;具体为b’的初始摘要为空,严重程度与b相同,依次取出b的摘要中所含的所有分词,对每次取出的分词w,从文本语料库中找出与其相似度最高并且词性相同的一个分词w’,如果w与w’间的语义相似度低于操作人员指定的阈值γ,则不添加w’到b’的摘要中,否则添加w’到b’的摘要中,当b的摘要所含所有分词均已取出后,将虚拟缺陷报告b’加入训练数据集Dtrain;
S404:从数据集Drandom中取出下一份缺陷报告b,重复步骤S402直至数据集Drandom中的所有缺陷报告均已执行步骤S403,随后将数据集Dorg并入训练数据集Dtrain,返回扩充后的训练数据集Dtrain。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110341218.3A CN113011179B (zh) | 2021-03-30 | 2021-03-30 | 一种基于缺陷报告摘要中词性信息的严重程度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110341218.3A CN113011179B (zh) | 2021-03-30 | 2021-03-30 | 一种基于缺陷报告摘要中词性信息的严重程度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113011179A true CN113011179A (zh) | 2021-06-22 |
CN113011179B CN113011179B (zh) | 2023-10-20 |
Family
ID=76409349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110341218.3A Active CN113011179B (zh) | 2021-03-30 | 2021-03-30 | 一种基于缺陷报告摘要中词性信息的严重程度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011179B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180307904A1 (en) * | 2017-04-19 | 2018-10-25 | Tata Consultancy Services Limited | Systems and methods for classification of software defect reports |
CN112000802A (zh) * | 2020-07-24 | 2020-11-27 | 南京航空航天大学 | 基于相似度集成的软件缺陷定位方法 |
CN112328475A (zh) * | 2020-10-28 | 2021-02-05 | 南京航空航天大学 | 一种面向多可疑代码文件的缺陷定位方法 |
US20210090694A1 (en) * | 2019-09-19 | 2021-03-25 | Tempus Labs | Data based cancer research and treatment systems and methods |
-
2021
- 2021-03-30 CN CN202110341218.3A patent/CN113011179B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180307904A1 (en) * | 2017-04-19 | 2018-10-25 | Tata Consultancy Services Limited | Systems and methods for classification of software defect reports |
US20210090694A1 (en) * | 2019-09-19 | 2021-03-25 | Tempus Labs | Data based cancer research and treatment systems and methods |
CN112000802A (zh) * | 2020-07-24 | 2020-11-27 | 南京航空航天大学 | 基于相似度集成的软件缺陷定位方法 |
CN112328475A (zh) * | 2020-10-28 | 2021-02-05 | 南京航空航天大学 | 一种面向多可疑代码文件的缺陷定位方法 |
Non-Patent Citations (2)
Title |
---|
倪超;陈翔;刘望舒;顾庆;黄启国;李娜;: "基于特征迁移和实例迁移的跨项目缺陷预测方法", 软件学报, no. 05 * |
王丹丹;王青;: "基于演化数据的软件缺陷预测性能改进", 软件学报, no. 12 * |
Also Published As
Publication number | Publication date |
---|---|
CN113011179B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ein-Dor et al. | Corpus wide argument mining—a working solution | |
Petrić et al. | The jinx on the NASA software defect data sets | |
US20070016863A1 (en) | Method and apparatus for extracting and structuring domain terms | |
CN111651198B (zh) | 代码摘要自动化生成方法及装置 | |
US20220067575A1 (en) | Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus | |
CN111680509A (zh) | 基于共现语言网络的文本关键词自动抽取方法和装置 | |
CN107193915A (zh) | 一种企业信息分类方法及装置 | |
CN112968917B (zh) | 一种用于网络设备的渗透测试方法和系统 | |
US11403304B2 (en) | Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects | |
CN103324641B (zh) | 信息记录推荐方法和装置 | |
CN112818110A (zh) | 文本过滤方法、设备及计算机存储介质 | |
EP3965024A1 (en) | Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects | |
CN112579583A (zh) | 一种面向事实检测的证据与声明联合抽取方法 | |
CN113011179A (zh) | 一种基于缺陷报告摘要中词性信息的严重程度预测方法 | |
CN117009213A (zh) | 面向智能问答系统逻辑推理功能的蜕变测试方法及系统 | |
CN113011180B (zh) | 一种基于描述关键词抽取的缺陷报告严重程度预测方法 | |
CN115129581A (zh) | 单元测试质量的评估方法、装置及电子设备 | |
CN115809658A (zh) | 平行语料的生成方法及装置和无监督同义转写方法及装置 | |
CN113032564B (zh) | 特征提取方法、装置、电子设备以及存储介质 | |
CN114580417A (zh) | 一种命名实体识别方法、装置、电子设备和可读存储介质 | |
CN115169328A (zh) | 一种高准确性的中文拼写检查方法、系统及介质 | |
CN114416174A (zh) | 基于元数据的模型重构方法、装置、电子设备及存储介质 | |
CN112632284A (zh) | 用于未标注文本数据集的信息抽取方法及系统 | |
YUSYN et al. | IMPROVEMENT OF THE DETERMINISTIC METHOD OF THE TEXT DATA CORPORA GENERATION | |
CN113705208B (zh) | 一种基于领域术语和关键句的中文问题自动生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |