CN112966708B - 一种基于语义相似度的中文众包测试报告聚类方法 - Google Patents

一种基于语义相似度的中文众包测试报告聚类方法 Download PDF

Info

Publication number
CN112966708B
CN112966708B CN202110112286.2A CN202110112286A CN112966708B CN 112966708 B CN112966708 B CN 112966708B CN 202110112286 A CN202110112286 A CN 202110112286A CN 112966708 B CN112966708 B CN 112966708B
Authority
CN
China
Prior art keywords
test report
test
similarity
chinese
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110112286.2A
Other languages
English (en)
Other versions
CN112966708A (zh
Inventor
黄松
陈浩
史涯晴
郑长友
王梅娟
吴开舜
刘语婵
骆润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202110112286.2A priority Critical patent/CN112966708B/zh
Publication of CN112966708A publication Critical patent/CN112966708A/zh
Application granted granted Critical
Publication of CN112966708B publication Critical patent/CN112966708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义相似度的中文众包测试报告聚类方法,包括:输入中文测试报告集,剔除无效测试报告,并将有效测试报告进行分句处理,得到测试报告句子对数据集;构建测试报告句子对训练集对语义相似度模型进行训练,得到语义相似度计算模型;将测试报告句子对数据集输入至语义相似度计算模型中进行语义相似度计算,得到测试报告相似度矩阵;设置测试项目预期的bug数量,根据测试报告相似度矩阵进行谱聚类,得到测试报告类簇;根据测试报告类簇对测试报告相似度矩阵进行分解,得到每个类簇的测试报告相似度矩阵,计算每类簇中累计相似度得分Top‑5的测试报告作为最终输出结果。提高了众包测试平台测试报告审查自动化流程,有效提升了测试报告审查效率。

Description

一种基于语义相似度的中文众包测试报告聚类方法
技术领域
本发明涉及通信技术领域,尤其涉及一种基于语义相似度的中文众包测试报告聚类方法。
背景技术
在众包软件测试过程中,众包工人发现并提交软件使用过程中出现的问题,撰写称测试报告提交给被测试方用以换取报酬。一个众包测试项目通常会收到成百上千份的测试报告,有研究指出在提交的软件问题报告中,仅有不到50%的报告揭示的是软件真实存在的缺陷,平均82%的众测报告是重复的。如果包含大量重复和假阳性的报告集由被测试方手动检查,这将会耗费大量的时间和人力测试成本。因此,高效且自动化的去除出重复报告和假阳性报告是非常有必要的。
众包软件测报告形式的多样性由测试报告提交方式的多样性决定。收集到的报告内容可能包含文本描述,堆栈信息或程序截图中的一种或者多种。绝大多数测试报告都包含有文本描述,叙述了问题的表现形式或问题出现前的软件的操作步骤。这些极其关键的信息帮助开发人员区分和定位软件缺陷,同样将用于自动化分析测试报告。
现有的大部分基于文本特征进行的报告分类的方法都是抽取关键词来构建报告的文本特征。但是,针对中文撰写的测试报告,这些方法实施起来并不太适用。首先,英文撰写的测试报告只需要依据空格来对测试报告进行分词,然而中文书写的连续性使得分词变得不同,分词结果组合成的词库质量对实验结果可能造成影响。其次,基于关键词构建的文本向量在进行特征表示时,特征维度可能对分类效果产生影响。
发明内容
本发明的目的是提供一种基于语义相似度的中文众包测试报告聚类方法,解决了现有中文众包测试报告评审过程中,假阳性和重复报告多,人工评审人力资源消耗大,效率低的不足的技术问题。
本发明为实现上述发明目的采用如下技术方案:
本发明提供了一种基于语义相似度的中文众包测试报告聚类方法,包括:
输入中文测试报告集,剔除无效测试报告,并将有效测试报告进行分句处理,得到测试报告句子对数据集;
利用测试报告句子对训练集对语义相似度模型进行训练,得到语义相似度计算模型;
将测试报告句子对数据集输入至语义相似度计算模型中进行语义相似度计算,得到测试报告相似度矩阵;
设置测试项目预期的bug数量,根据测试报告相似度矩阵进行谱聚类,得到测试报告类簇;
根据测试报告类簇对测试报告相似度矩阵进行分解,得到每个类簇的测试报告相似度矩阵,计算每类簇中累计相似度得分大于设定阈值的测试报告作为最终输出结果。
进一步地,输入中文测试报告集,剔除无效测试报告的方法包括:
若中文测试报告中测试用例字段或者结果描述字段缺失,视为无效报告;
由正则表达式“(测试|执行|实施)+(通过|正常|无误|成功)+”匹配到测试报告视为无效报告;
由正则表达式“(没有|未|无|没)(发现|检测|检查)?(任何|一个|几个)?(错误|缺陷|bug|漏洞|问题)+”匹配到测试报告视为无效报告;
由正则表达式“(无|pass|ok)$”匹配到测试报告视为无效报告。
进一步地,将有效测试报告进行分句处理包括:
使用正则表达式对有效测试报告的测试用例描述和结果描述字段进行分句。
进一步地,句子划分的正则表达式为:
单句结束符:如果被单句正则表达式“([。!?;\?])([^”’])”切分,视为一个完整句子;
英文省略符:如果被英文省略号正则表达式“(\.{6})([^”’;]”切分,视为一个完整句子;
中文省略符:如果被中文省略号正则表达式“(\…{2})([^”’])”切分,视为一个完整句子;
引述结束符:如果被引述正则表达式“([。!?\?][”’])([^,。;!?\?])”切分,视为一个完整句子。
进一步地,语义相似度计算模型包括:
模型由一个孪生的预训练语言模型构成;
语义相似度计算采用余弦相似度进行度量;
模型接收一个句子对作为输入,输出句子对的语义相似度。
进一步地,测试报告相似度矩阵计算方法为:
测试报告相似度=μ1*测试用例描述相似度+μ2*结果描述相似度,其中μ1和μ2为权重超参数且μ12=1,默认情况μ1=μ2=0.5。
进一步地,根据测试报告相似度矩阵进行谱聚类,得到测试报告类簇的方法包括:
输入测试报告相似度矩阵M和聚类中心数K;
根据相似度矩阵M构建邻接矩阵W和度矩阵D;
依据邻接矩阵W和度矩阵D计算出拉普拉斯矩阵L,并将其标准化;
依据标准化后的拉普拉斯矩阵计算特征向量矩阵F;
依据特征向量矩阵应用K-Means聚类算法;
输出类簇信息。
进一步地,根据测试报告类簇对测试报告相似度矩阵进行分解,得到每个类簇的测试报告相似度矩阵,计算每类簇中累计相似度得分大于设定阈值的测试报告作为最终输出结果的方法包括:
依据输出的类簇信息,分解测试报告相似度矩阵,得到K个大小不一的类簇测试报告相似度矩阵,每类簇累计相似度计算公式如下:
最后输出累计相似度大于设定阈值测试报告为结果。
本发明的有益效果如下:
本发明解决了现有中文众包测试报告评审过程中,假阳性和重复报告多,人工评审人力资源消耗大,效率低的不足的技术问题,提高了众包测试平台测试报告审查自动化流程,有效提升了测试报告审查效率。
附图说明
图1为根据本发明实施例提供的一种基于语义相似度的中文众包测试报告聚类方法的整体流程图;
图2为根据本发明实施例提供的一种基于语义相似度的中文众包测试报告聚类方法中语义相似度计算模型示意图。
具体实施方式
下面结合具体实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明提供了一种基于语义相似度的中文众包测试报告聚类方法,如图1、图2所示,接收中文测试报告数据集DataSet,训练集TrainSet和相似度矩阵权重μ,步骤如下:
步骤1:对众包测试过程提出理想化的假设条件,使得聚类方法能够满足众包测试报告分析的实际需求:
(1)在大量测试人员的参与以及多轮众包测试后,假设现阶段的缺陷基本能够检测出来;
(2)一轮众包测试结束后,大多数人揭示了同一个缺陷,我们认为这个缺陷是一个真实有效的缺陷。
步骤2:在步骤(1)中众包测试过程的前提假设下,对中文众包测试报告进行正则过滤筛选有效测试报告:
(1)内容完整性判定:如果测试用例字段或结果描述字段缺失,则认为是无效测试报告,不进行聚类分析;
(2)无缺陷判定:如果测试报告被正则表达式“(测试|执行|实施)+(通过|正常|无误|成功)+”匹配,则认为是无缺陷报告,不进行聚类分析;
(3)无缺陷判定:如果测试报告被正则表达式“(没有|未|无|没)(发现|检测|检查)?(任何|一个|几个)?(错误|缺陷|bug|漏洞|问题)+”匹配,则认为是无缺陷报告,不进行聚类分析;
(4)信息完整性判定:如果测试报告被正则表达式“(无|pass|ok)$”匹配,则认为是信息缺失的测试报告,不进行聚类分析;
步骤3:对步骤(2)筛选的有效测试报告数据集分句处理,使用正则表达式对测试报告测试用例描述字段和结果描述字段进行句子划分。
为了更好地理解中文测试报告的描述信息,因此需要对连续的语句进行划分。依据书写过程中的标点符号进行语句划分是一个简单有效的方式,因此构建了针对不同结束标点的正则匹配规则:
(1)单句结束符:如果被正则表达式“([。!?;\?])([^”’])”匹配,则作为一个完整句子;
(2)英文省略符:如果被正则表达式“(\.{6})([^”’;]”匹配,则作为一个完整句子;
(3)中文省略符:如果被正则表达式“(\…{2})([^”’])”匹配,则作为一个完整句子:
(4)引述结束符:如果被正则表达式“([。!?\?][”’])([^,。;!?\?])”匹配,则作为一个完整句子;
为了保证句子的完整语义,如果一个句子(含标点)字符长度小于等于4,则该句子定义为无效句,不再进行语义相似度计算。
步骤4:对步骤(3)中得到的不同测试报告的有效语句组合成句对,如果未得到训练好的语义相似度模型,则进行以下步骤:
(1)挑选少量测试报告句对进行人工评审进行语义相似度标记;
(2)对标记的句对训练集进行扩充,包括句对复制,句对翻转等;
(3)将训练集输入语义相似度计算模型训练;
(4)将不同测试报告的有效句对输入训练好的语义相似度计算模型;
(5)得到每个句对的语义相似度得分;
如果已有训练好的语义相似度计算模型,则直接执行(4)(5)。
步骤5:依据步骤(4)中输出的句对语义相似度值计算测试报告的测试用例相似度计算和结果描述相似度计算。
对于中文众包测试报告Ta的测试用例字段有m条有效句子,测试报告Tb的测试用例字段有n条有效句子,则可以得到一个m×n的一个语义相似度得分矩阵,此时两份测试报告的测试用例相似度计算公式如下:
相同方式计算测试报告结果描述相似度,此时得到两个相似度矩阵,分别是测试用例相似度矩阵M1和结果描述相似度矩阵M2,测试报告相似度矩阵计算如下:
Similarity=μ1*M12*M2 (4)
其中μ1和μ2为权重参数,且μ12=1,默认值为μ1=μ2=0.5。
步骤6:依据步骤(5)中计算出的测试报告相似度矩阵,对中文众测报告数据集进行谱聚类:
(1)输入测试报告相似度矩阵M和聚类中心数K;
(2)根据相似度矩阵M构建邻接矩阵W和度矩阵D;
(3)依据(2)中的邻接矩阵和度矩阵计算出拉普拉斯矩阵L,并将其标准化;
(4)依据(3)中标准化后的拉普拉斯矩阵计算特征向量矩阵F;
(5)依据(4)中特征向量矩阵应用K-Means聚类算法;
(6)输出类簇信息;
步骤7:依据步骤(6)中的类簇信息,分解步骤(5)中的测试报告相似度矩阵,得到K个大小不一的类簇测试报告相似度矩阵,每类簇累计相似度计算公式如下:
最后输出累计相似度Top-5测试报告为结果。
本发明的实例效果验证如下,本实例从全国大学生软件测试大赛的嵌入式赛项选择了3个测试项目共8,585份测试报告。每个测试项目平均约有3千份测试报告,人工审查及其耗费时间。基于已经评估过的测试报告进行整理,其数据集的情况如表1所示。
表1测试报告数据分布情况
本发明实例选取三个项目的有效报告进行聚类分析,并选取已有的基于关键词向量化的聚类方法作为基线进行对比,其中包含基于TF-IDF向量化的实验组和使用机器学习方法进行优化的方法。
在性能评估阶段,纯度(Purity)和ARI(Adjusted Rand Index)被用于评估聚类效果的准确性和有效性。纯度是将每个聚类后的类簇中数量最多的标签作为该类簇的标签,然后计算该类簇的纯度。它的计算公式为:
其中N代表所有测试报告的数量,Ω={ω12,...,ωK}代表聚类的类簇结果,C={c1,c2,...,cJ}表示类簇的真实标签。
ARI是反映的是聚类结果与真实类簇分布差异的指标,它的取值范围为[-1,1],取值越大代表聚类结果越接近真实的类簇情况。其计算公式如下:
其中nij表示类簇ci与类簇ωj中数据标签相同的数量,ai表示类簇ci与Ω中各类簇标签一致的数量和,bj表示ωj与C中各类簇标签一致的数量和,n表示测试报告数量和。
在步骤6中进行谱聚类后,对聚类结果进行评估,各指标结果如表2所示。
表2各模型的聚类结果评价指标
从评价指标来看,基于语义相似的聚类方法(SSCM)均优于已有的基于关键词向量化的其他基线方法,其中在Item1中默认的SSCM-55模型ARI指标比当前效果最好的AT-150模型高出96%,纯度比当前最好效果的AT-50模型高出25%;在Item3中默认的SSCM-55模型ARI指标比当前效果最好的AT-50模型高出68%,纯度比当前最好的AT-100高出33%。
总的来说,本发明的聚类性能均优于对照的基线方法,说明本发明使用的基于语义相似度的聚类方法性能更好。
从实验数据来看,本实例对中文众测报告进行聚类分析的过程中使用了孪生的预训练语言模型,它们将句子按照字符分割,并输出句子结构的语义表征向量,避免了中文分词过程中出现的关键词差异,提升了聚类的有效性和准确性。在众包测试评审过程中使用本发明的方法可以有效的减少人工审查的报告数量,避免重复报告和假阳性报告的审查,提升了众包测试平台的效能,为平台带来效益的提升。
本发明基于语义相似度的中文众包测试报告聚类方法,从句子层面入手分析中文众包测试报告,分别匹配测试报告的用例描述字段和结果描述字段的语义相似度,然后综合计算测试报告相似性。从句子层面分析避免了因为中文分词差异导致的关键词词典不同,同时句子相比于关键词带有更多的语义信息,能够有效的区别那些揭露不同缺陷但是描述相近的测试报告,从而提高测试报告聚类的准确性,有效减少人工审查测试报告的数量,同时整个聚类过程是自动化的,大大提升了对测试报告的审查效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,包括:
输入中文测试报告集,剔除无效测试报告,并将有效测试报告进行分句处理,得到测试报告句子对数据集;
利用测试报告句子对训练集对语义相似度模型进行训练,得到语义相似度计算模型;
将测试报告句子对数据集输入至语义相似度计算模型中进行语义相似度计算,得到测试报告相似度矩阵;
设置测试项目预期的bug数量,根据测试报告相似度矩阵进行谱聚类,得到测试报告类簇;
根据测试报告类簇对测试报告相似度矩阵进行分解,得到每个类簇的测试报告相似度矩阵,计算每类簇中累计相似度得分大于设定阈值的测试报告作为最终输出结果;
测试报告相似度=μ1*测试用例描述相似度+μ2*结果描述相似度,其中μ1和μ2为权重超参数且μ12=1,μ1=μ2=0.5。
2.根据权利要求1所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,输入中文测试报告集,剔除无效测试报告的方法包括:
若中文测试报告中测试用例字段或者结果描述字段缺失,视为无效报告;
由正则表达式“(测试|执行|实施)+(通过|正常|无误|成功)+”匹配到测试报告视为无效报告;
由正则表达式“(没有|未|无|没)(发现|检测|检查)?(任何|一个|几个)?(错误|缺陷|bug|漏洞|问题)+”匹配到测试报告视为无效报告;
由正则表达式“(无|pass|ok)$”匹配到测试报告视为无效报告。
3.根据权利要求1所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,将有效测试报告进行分句处理包括:
使用正则表达式对有效测试报告的测试用例描述和结果描述字段进行分句。
4.根据权利要求3所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,句子划分的正则表达式为:
单句结束符:如果被单句正则表达式“([。!?;\?])([^”’])”切分,视为一个完整句子;
英文省略符:如果被英文省略号正则表达式“(\.{6})([^”’;]”切分,视为一个完整句子;
中文省略符:如果被中文省略号正则表达式“(\…{2})([^”’])”切分,视为一个完整句子;
引述结束符:如果被引述正则表达式“([。!?\?][”’])([^,。;!?\?])”切分,视为一个完整句子。
5.根据权利要求1所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,语义相似度计算模型包括:
模型由一个孪生的预训练语言模型构成;
语义相似度计算采用余弦相似度进行度量;
模型接收一个句子对作为输入,输出句子对的语义相似度。
6.根据权利要求5所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,根据测试报告相似度矩阵进行谱聚类,得到测试报告类簇的方法包括:
输入测试报告相似度矩阵M和聚类中心数K;
根据相似度矩阵M构建邻接矩阵W和度矩阵D;
依据邻接矩阵W和度矩阵D计算出拉普拉斯矩阵L,并将其标准化;
依据标准化后的拉普拉斯矩阵计算特征向量矩阵F;
依据特征向量矩阵应用K-Means聚类算法;
输出类簇信息。
7.根据权利要求6所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,根据测试报告类簇对测试报告相似度矩阵进行分解,得到每个类簇的测试报告相似度矩阵,计算每类簇中累计相似度得分大于设定阈值的的测试报告作为最终输出结果的方法包括:
依据输出的类簇信息,分解测试报告相似度矩阵,得到K个大小不一的类簇测试报告相似度矩阵,每类簇累计相似度计算公式如下:
最后输出累计相似度大于设定阈值的测试报告为结果。
CN202110112286.2A 2021-01-27 2021-01-27 一种基于语义相似度的中文众包测试报告聚类方法 Active CN112966708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110112286.2A CN112966708B (zh) 2021-01-27 2021-01-27 一种基于语义相似度的中文众包测试报告聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110112286.2A CN112966708B (zh) 2021-01-27 2021-01-27 一种基于语义相似度的中文众包测试报告聚类方法

Publications (2)

Publication Number Publication Date
CN112966708A CN112966708A (zh) 2021-06-15
CN112966708B true CN112966708B (zh) 2024-05-28

Family

ID=76273304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110112286.2A Active CN112966708B (zh) 2021-01-27 2021-01-27 一种基于语义相似度的中文众包测试报告聚类方法

Country Status (1)

Country Link
CN (1) CN112966708B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688105A (zh) * 2021-08-10 2021-11-23 中国人民解放军陆军工程大学 一种众包测试知识产权管理系统及分解、上链和验证方法
CN113780366B (zh) * 2021-08-19 2024-02-13 杭州电子科技大学 基于ap近邻传播算法的众包测试报告聚类方法
CN114090462B (zh) * 2021-12-07 2023-04-18 上海复深蓝软件股份有限公司 软件重复缺陷识别方法、装置、计算机设备及存储介质
CN114048293A (zh) * 2022-01-11 2022-02-15 广东拓思软件科学园有限公司 一种缺陷报告融合方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729300A (zh) * 2017-09-18 2018-02-23 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN111353304A (zh) * 2018-12-05 2020-06-30 南京慕测信息科技有限公司 一种众包测试报告聚合和摘要的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9710769B2 (en) * 2014-04-01 2017-07-18 Conduent Business Services, Llc Methods and systems for crowdsourcing a task

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729300A (zh) * 2017-09-18 2018-02-23 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN111353304A (zh) * 2018-12-05 2020-06-30 南京慕测信息科技有限公司 一种众包测试报告聚合和摘要的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CTRAS: Crowdsourced Test Report Aggregation and Summarization;Rui Hao et al.;《2019 IEEE/ACM 41st International Conference on Software Engineering (ICSE)》;全文 *
众包测试报告的挖掘与评估;陈信;《中国博士学位论文全文数据库 信息科技辑》;第3.4节 *
基于依存句法分析的病理报告结构化处理方法;田驰远;陈德华;王梅;乐嘉锦;;计算机研究与发展(12);全文 *
基于信息检索的软件缺陷定位技术研究进展;张芸;刘佳琨;夏鑫;吴明晖;颜晖;;软件学报;20200815(08);全文 *
融合《知网》和搜索引擎的词汇语义相似度计算;张硕望;欧阳纯萍;阳小华;刘永彬;刘志明;;计算机应用;20170410(04);全文 *

Also Published As

Publication number Publication date
CN112966708A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112966708B (zh) 一种基于语义相似度的中文众包测试报告聚类方法
WO2021259207A1 (zh) 基于stacking集成的APT组织识别方法、系统及存储介质
WO2020147238A1 (zh) 关键词的确定方法、自动评分方法、装置、设备及介质
Mitra et al. An automatic approach to identify word sense changes in text media across timescales
CN107169086B (zh) 一种文本分类方法
CN107463607A (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN111581092B (zh) 仿真测试数据的生成方法、计算机设备及存储介质
CN109508460B (zh) 基于主题聚类的无监督作文跑题检测方法及系统
CN115062148B (zh) 一种基于数据库的风险控制方法
CN110046264A (zh) 一种面向手机文档的自动分类方法
CN112651296A (zh) 一种无先验知识数据质量问题自动探查方法及系统
CN110781333A (zh) 一种基于机器学习的斜拉桥非结构化监测数据处理方法
CN110889275A (zh) 一种基于深度语义理解的信息抽取方法
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN109446522B (zh) 一种试题自动分类系统及方法
Chen et al. An effective crowdsourced test report clustering model based on sentence embedding
CN108021595B (zh) 检验知识库三元组的方法及装置
CN111863135A (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN116976321A (zh) 文本处理方法、装置、计算机设备、存储介质和程序产品
CN111597423A (zh) 一种文本分类模型可解释性方法的性能评价方法及装置
CN114202038B (zh) 一种基于dbm深度学习的众包缺陷分类方法
CN113722421A (zh) 一种合同审计方法和系统,及计算机可读存储介质
Clausner et al. Unearthing the recent past: digitising and understanding statistical information from census tables

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant