CN112000802A - 基于相似度集成的软件缺陷定位方法 - Google Patents

基于相似度集成的软件缺陷定位方法 Download PDF

Info

Publication number
CN112000802A
CN112000802A CN202010720348.3A CN202010720348A CN112000802A CN 112000802 A CN112000802 A CN 112000802A CN 202010720348 A CN202010720348 A CN 202010720348A CN 112000802 A CN112000802 A CN 112000802A
Authority
CN
China
Prior art keywords
source file
defect
similarity
defect report
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010720348.3A
Other languages
English (en)
Inventor
燕雪峰
程莎莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202010720348.3A priority Critical patent/CN112000802A/zh
Publication of CN112000802A publication Critical patent/CN112000802A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于相似度集成的软件缺陷定位方法,包括以下步骤:输入待测软件的源文件与缺陷报告;对源文件与缺陷报告进行数据预处理;计算源文件与缺陷报告的表面文本相似度;计算源文件与缺陷报告的语义相似度;分析源文件与缺陷报告的文本属性;构建特征矩阵,将特征矩阵输入DNN进行相似度集成,对DNN模型进行训练;对于新的缺陷报告,获得表面文本相似度、语义相似度和文本属性,构建特征矩阵,利用训练好的DNN模型,得出含有缺陷的源文件列表。本发明解决源文件和缺陷报告中噪声过滤不完整以及两者之间存在的词汇不匹配导致基于信息检索的软件缺陷定位中相似度计算困难问题;提高了软件缺陷定位的准确性,具有较强的普适性。

Description

基于相似度集成的软件缺陷定位方法
技术领域
本发明涉及软件缺陷定位,特别涉及基于相似度集成的软件缺陷定位方法。
背景技术
软件缺陷定位是根据源文件与给定缺陷报告的相关性对源文件进行排序,开发人员通过排序列表逐一核查来找到含有缺陷的源文件,然而软件在开发生命周期中会产生大量的缺陷报告,所以缺陷定位的有效性和及时性将会影响软件的可靠性和可用性。
目前通常利用基于信息检索的软件缺陷进行定位分析,这类方法主要依赖源代码的文本信息,利用缺陷报告来定位相关源文件。这类方法侧重于自然语言文本的术语权重,没有考虑到源代码和缺陷报告语料中存在大量无语义词汇噪声,会导致经过向量表示的代码向量纬度高、稀疏性强的问题;同时,这类方法没有分析缺陷报告与源文件之间的语义相似性,忽略了自然语言描写的缺陷报告和编程语言编写的源文件之间存在的词汇不匹配问题。
发明内容
发明目的:针对以上问题,本发明目的是提供一种准确度高、普适性强的基于相似度集成的软件缺陷定位方法。
技术方案:本发明所述的一种基于相似度集成的软件缺陷定位方法,包括以下步骤:
(1)输入待测软件的源文件与缺陷报告;
(2)对源文件与缺陷报告进行数据预处理;
(3)计算源文件与缺陷报告的表面文本相似度;
(4)计算源文件与缺陷报告的语义相似度;
(5)分析源文件与缺陷报告的文本属性;
(6)结合表面文本相似度、语义相似度和文本属性,建立特征矩阵,将特征矩阵输入深度神经网络(DNN)进行相似度集成,对DNN模型进行训练;
(7)对于新的缺陷报告,通过步骤3-5获得表面文本相似度、语义相似度和文本属性,构建特征矩阵,利用步骤6中训练好的DNN模型,得出含有缺陷的源文件列表。
所述步骤(2)过程如下:首先,提取缺陷报告中的摘要、详细描述和已修复的源文件,利用抽象语法树(AST)提取源文件中的类名、方法名、变量、注释信息,然后对缺陷报告与源文件进行文本规范化、去除停用词、获取词根,对源文件和缺陷报告的术语进行词性标注(POS),仅保留词性为名词、动词、形容词、副词的词汇。
所述步骤(3)过程如下:
收集预处理后的源文件与缺陷报告,利用词频-逆文档频率计算每个单词的权重,表达式为:
Figure BDA0002599738080000021
式中,tfi,s是指源文件s中出现术语i的次数,#src_files是指语料库中源文件个数,dfi是指含有术语i的文档数量;
由于较大的源文件有更高的出错概率,源文件长度计算公式为:
Figure BDA0002599738080000022
式中λ参数用于调整对较大文件的偏爱程度,λ>0;|s|为源文件中术语个数;
利用余弦距离与源文件长度计算源文件与缺陷报告表面文本相似度:
Figure BDA0002599738080000023
其中,b为缺陷报告;
利用缺陷报告与所有函数和整个源文件表面文本相似度的最大值来表示缺陷报告与源文件的表面文本相似性,公式如下:
SurfaceSim=max({VSMSim(b,s)}∪{VSMSim(b,m)|m∈s})
m表示源文件中的函数。
所述步骤(4)过程如下:
首先采用google开源的Word2vec作为训练工具,将维基语料库中文本分为训练数据和测试数据,用Skip-gram模型进行训练;利用已经训练好的Skip-gram模型将源文件和缺陷报告中的每个单词表示为300维的向量,公式分别为:
Figure BDA0002599738080000024
Figure BDA0002599738080000025
式中wi,s为使用Skip-gram模型获得源文件s中某一术语i的单词向量;s*为源文件的向量表示;b*为缺陷报告的向量表示;
根据以上获取的向量,利用余弦距离表示源文件与缺陷报告的语义相似度,同时利用缺陷报告与所有函数和整个源文件语义相似度的最大值来表示缺陷报告与源文件的语义相似性,公式如下:
SemanticSim=max({cos(b*,s*)}∪{cos(b*,m*)|m∈s})。
所述步骤(5)过程如下:文本属性包括令牌匹配、堆栈信息和已修复的缺陷报告,利用源文件中文件名、方法名、类名和注释分别与缺陷报告中摘要和详细描述进行令牌匹配,令牌匹配个数表示源文件与缺陷报告的相似度;利用正则表达式((.*?)\((.*?)\))来提取缺陷报告详细描述中堆栈信息,源文件在堆栈中排名的倒数来衡量源文件与缺陷报告相似度;对每个缺陷报告使用多标签分类算法,仅对历史缺陷报告进行分类,从而对待定位缺陷报告相关的源文件进行评分。
所述步骤(6)过程如下:所有相应的含有缺陷的源文件以及所有的已修复缺陷报告创建正样本,选择在表面文本相似度中排名前几百的且不含有缺陷的源文件作为负样本;对这些正、负样本利用信息检索和词嵌入计算缺陷报告和源文件的表面文本相似度和语义相似度,同时分析这些样本的文本属性;将缺陷报告按照提交时间进行排序,把以上正、负样本分成两个部分,其中80%作为训练集,另外20%作为测试集;将以上特征构成的特征矩阵作为DNN的输入,进行非线性组合,对DNN模型进行训练。
有益效果:本发明与现有技术相比,其显著优点是:
1、解决源代码和缺陷报告中噪声过滤不完整以及两者之间存在词汇不匹配导致基于信息检索的软件缺陷定位中相似度计算困难问题;
2、提高软件缺陷定位的准确性,具有较强的普适性。
附图说明
图1为本发明的流程示意图;
图2为实施例中对缺陷报告摘要进行Stanford Tagger POS标注的示例图;
图3为实施例中对缺陷报告中描述部分转换为300维数字向量的示例图;
图4为相似度集成的深度神经网络结构图。
具体实施方式
本实施例所述的基于相似度集成的软件缺陷定位方法,流程示意图如图1所示,包括以下步骤:
(1)输入待测软件的源文件与缺陷报告,待测软件为:AspectJ。
(2)对源文件与缺陷报告进行数据预处理,将源代码文件转换成AST,类名、方法名、变量、注释文本信息被直接提取;提取缺陷报告中摘要和详细描述内容,使用CamelCase分割原则对组合词进行分割:"EventMouse"分割成"Event"和"Mouse";去除缺陷报告和源文件中"is"、"the"英文停用词,对于源文件而言,还要移除"private"、"public"关键字;使用标准的Porter Stemmer来执行词干提取,将衍生词还原为词根形式,处理后相似的词以相同形式出现。
图2显示AspectJ项目中编号为80120的缺陷报告摘要进行Stanford Tagger POS标注结果,看出"CTabFolder","layout","pixel"和"righ"为名词;从提取的名词中,"CTabFolder"直接与"CTabFolder.java"这个含有缺陷的源文件相匹配。因此增加源文件与缺陷报告中词性为名词的词汇权重,并且仅保留词性为名词、动词、形容词、副词的词汇。
(3)根据信息检索中的向量空间模型(VSM),利用源文件的长度对VSM进行修正,计算源文件与缺陷报告的表面文本相似度:首先收集预处理后的源文件与缺陷报告,利用词频-逆文档频率(TFIDF)计算每个单词的权重:
Figure BDA0002599738080000041
式中,tfi,s是指源文件s中出现术语i的次数,#src_files是指语料库中源文件个数,dfi是指含有术语i的文档数量。
由于较大的源文件有更高的出错概率,源文件长度得分计算公式为:
Figure BDA0002599738080000042
λ参数用于调整对较大文件的偏爱程度,λ>0,通过设置此参数,在增加大型文件和减少大型文件中的噪音之间获得更好的平衡;|s|为源文件中术语个数;然后利用余弦距离与源文件长度表示源文件与缺陷报告文本相似度:
Figure BDA0002599738080000043
缺陷通常被定位在代码的一小部分,在某一函数中,当源文件很大时,相应的范数也会很大,尽管文件中的某一函数实际上与缺陷报告非常相关,也会导致其与缺陷报告的余弦相似度较小,无法有效地衡量源文件与缺陷报告的表面文本相似度。因此,使用AST从源代码中取出一个个函数,将每个函数m作为一个单独的文档,使用余弦距离表示其与缺陷报告之间的相似性;然后使用缺陷报告与所有函数相似性和整个文件相似性的最大值来表示表面文本相似性,公式如下:
SurfaceSim=max({VSMSim(b,s)}∪{VSMSim(b,m)|m∈s})
(4)将TFIDF和词嵌入中的Skip-gram模型相结合,得到源文件与缺陷报告的向量表示,利用余弦距离表示两者的语义相似度。
由于缺陷报告中摘要和详细描述是由自然语言组成,使用Skip-gram模型将摘要和详细描述转成数字向量表示。图3显示了将AspectJ项目中编号为29769的缺陷报告中的描述转换为300维数字向量的示例。
源文件是由编程语言中各种代码令牌组成,不同于由自然语言组成的缺陷报告,一些关键字经常出现在源代码中,会影响Word2vec的性能,为了减轻源代码中频繁出现的关键字影响,采用TFIDF与词嵌入模型相结合,基于Word2Vec模型的向量化表示方法挖掘出词汇之间的关联属性,从而提高向量语义上的准确度;TFIDF对文档中具有高频率并且出现在少量文档中具有重要意义的词汇,具有高鉴别性,过滤掉一些常见却无关紧要的词汇,同时保留影响整个文本的重要词汇;结合Word2vec和TFIDF将源文件和缺陷报告转成向量表示,公式如下:
Figure BDA0002599738080000051
Figure BDA0002599738080000052
式中wi,s为使用Skip-gram模型获得源文件s中某一术语i的单词向量;s*为源文件的向量表示;b*为缺陷报告的向量表示。采用google开源的Word2vec作为训练工具,将维基语料库中文本分为训练数据和测试数据,用Skip-gram模型对训练数据进行训练,分别得到训练数据中每个词维数为100、200、300的词向量,最终实验选取向量维数为300,达到计算相似度的最好效果;然后根据以上获取的向量,利用余弦距离表示源文件与缺陷报告的语义相似度,同时利用缺陷报告与所有函数和整个源文件语义相似度的最大值来表示缺陷报告与源文件的语义相似度,公式如下所示:
SemanticSim=max({cos(b*,s*)}∪{cos(b*,m*)|m∈s})
(5)分析源文件与缺陷报告文本属性:
令牌匹配:通过在源文件和缺陷报告的特定部分中找到精确匹配的令牌来提高缺陷定位的性能,利用源文件中文件名、方法名、类名和注释等信息分别与缺陷报告中摘要和详细描述进行令牌匹配,令牌匹配个数MatchedCount表示源文件与缺陷报告的相似度,通过这样给在缺陷报告中具有精确匹配的术语的源文件赋予更多的权重,最后使用最小-最大归一化来缩放匹配个数的范围至0到1。
堆栈信息:利用正则表达式((.*?)\((.*?)\))来提取缺陷报告详细描述中堆栈信息,rank是源文件f在堆栈跟踪中的排名,公式如下:
Figure BDA0002599738080000061
已修复的缺陷报告:由于经常被修改的源代码文件,含缺陷概率越高,对每个缺陷报告使用多标签分类算法,仅对历史缺陷报告进行分类,从而对待定位缺陷报告相关的源文件进行评分;使用缺陷报告中的术语作为输入,并使用它们的定位的源文件作为标签;然后,输出待定位源文件的概率分数。
(6)结合表面文本相似度、语义相似度和文本属性,构建特征矩阵,将特征矩阵输入深度神经网络进行相似度集成,获得训练好的DNN模型。
由于线性模型难以捕捉特征之间的非线性关系,限制缺陷定位的性能,用DNN进行相似度集成,利用足够的训练数据,从非线性函数中学习特征的权重,在DNN中隐藏层具有抽象效果,隐藏层的数量决定了网络提取特征的处理能力,在实验中发现DNN中隐藏层越多,使用的计算资源就越多,因此本实施例将DNN模型中隐藏层数设为1000,节点数设为1000-1100。
本实施例通过所有相应的含有缺陷的源文件以及所有的已修复缺陷报告来创建正样本,通过为每个缺陷报告选择在文本上相似且不是含有缺陷的源文件来创建负样本。对于每一对缺陷报告和源文件,从它们中提取以上五种特性构建特征矩阵如下所示,其中bi表示某一缺陷报告,s1~s300为选择的源文件样本:
Figure BDA0002599738080000062
以上特征矩阵作为DNN的输入,标签为缺陷报告是否与源文件相关,通过隐藏层中的非线性函数转换输入的特征,然后通过输出层中的线性函数进行分类,从而得到训练好的DNN模型。
(7)对于AspectJ中某一缺陷报告,计算其与源文件之间的表面文本相似度、语义相似性和文本属性来构建特征向量,将其输入步骤(6)中训练好的DNN模型,输出为与该缺陷报告相关的源文件排序列表,图4为相似度集成的DNN整体结构图。

Claims (6)

1.基于相似度集成的软件缺陷定位方法,其特征在于,包括以下步骤:
(1)输入待测软件的源文件与缺陷报告;
(2)对源文件与缺陷报告进行数据预处理;
(3)计算源文件与缺陷报告的表面文本相似度;
(4)计算源文件与缺陷报告的语义相似度;
(5)分析源文件与缺陷报告的文本属性;
(6)结合表面文本相似度、语义相似度和文本属性,构建特征矩阵,将特征矩阵输入深度神经网络进行相似度集成,对深度神经网络模型进行训练;
(7)对于新的缺陷报告,通过步骤(3)-(5)获得表面文本相似度、语义相似度和文本属性,构建特征矩阵,利用步骤(6)中训练好的深度神经网络模型,得出含有缺陷的源文件列表。
2.根据权利要求1所述的基于相似度集成的软件缺陷定位方法,其特征在于,所述步骤(2)过程如下:提取缺陷报告中的摘要、详细描述和已修复的源文件,利用抽象语法树提取源文件中的类名、方法名、变量、注释信息;对缺陷报告与源文件进行文本规范化、去除停用词、获取词根,对源文件和缺陷报告的术语进行词性标注,仅保留词性为名词、动词、形容词、副词的词汇。
3.根据权利要求1所述的基于相似度集成的软件缺陷定位方法,其特征在于,所述步骤(3)过程如下:
收集预处理后的源文件与缺陷报告,利用词频-逆文档频率计算每个单词的权重,表达式为:
Figure FDA0002599738070000011
式中,tfi,s是指源文件s中出现术语i的次数,#src_files是指语料库中源文件个数,dfi是指含有术语i的文档数量;
由于较大的源文件有更高的出错概率,源文件长度计算公式为:
Figure FDA0002599738070000012
式中λ参数用于调整对较大文件的偏爱程度,λ>0;|s|为源文件中术语个数;
利用余弦距离与源文件长度计算源文件与缺陷报告表面文本相似度:
Figure FDA0002599738070000013
其中,b为缺陷报告;
利用缺陷报告与所有函数和整个源文件表面文本相似度的最大值来表示缺陷报告与源文件的表面文本相似性,公式如下:
SurfaceSim=max({VSMSim(b,s)}∪{VSMSim(b,m)|m∈s})
其中m表示源文件中的函数。
4.根据权利要求1所述的基于相似度集成的软件缺陷定位方法,其特征在于,所述步骤(4)过程如下:
采用google开源的Word2vec作为训练工具,将维基语料库中文本分为训练数据和测试数据,用Skip-gram模型进行训练;利用已经训练好的Skip-gram模型将源文件和缺陷报告中的每个单词表示为300维的向量,公式分别为
Figure FDA0002599738070000021
Figure FDA0002599738070000022
式中wi,s为使用Skip-gram模型获得源文件s中某一术语i的单词向量;s*为源文件的向量表示;b*为缺陷报告的向量表示;
根据以上获取的向量,利用余弦距离表示源文件与缺陷报告的语义相似度,同时利用缺陷报告与所有函数和整个源文件语义相似度的最大值来表示缺陷报告与源文件的语义相似性,公式如下:
SemanticSim=max({cos(b*,s*)}∪{cos(b*,m*)|m∈s})。
5.根据权利要求1所述的基于相似度集成的软件缺陷定位方法,其特征在于,所述步骤(5)过程如下:文本属性包括令牌匹配、堆栈信息和已修复的缺陷报告,利用源文件中文件名、方法名、类名和注释分别与缺陷报告中摘要和详细描述进行令牌匹配,令牌匹配个数表示源文件与缺陷报告的相似度;利用正则表达式((.*?)\((.*?)\))来提取缺陷报告详细描述中堆栈信息,源文件在堆栈中排名的倒数来衡量源文件与缺陷报告相似度;对每个缺陷报告使用多标签分类算法,仅对历史缺陷报告进行分类,从而对待定位缺陷报告相关的源文件进行评分。
6.根据权利要求1所述的基于相似度集成的软件缺陷定位方法,其特征在于,所述步骤(6)过程如下:将所有相应的含有缺陷的源文件以及所有的已修复缺陷报告创建正样本,选择在表面文本相似度中排名前几百的且不含有缺陷的源文件作为负样本;对这些正、负样本利用信息检索和词嵌入计算缺陷报告和源文件的表面文本相似度和语义相似度,同时分析这些样本的文本属性;将缺陷报告按照提交时间进行排序,把正、负样本分成两个部分,其中80%作为训练集,另外20%作为测试集;将以上特征构成的特征矩阵作为深度神经网络的输入,进行非线性组合,对深度神经网络模型进行训练。
CN202010720348.3A 2020-07-24 2020-07-24 基于相似度集成的软件缺陷定位方法 Pending CN112000802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010720348.3A CN112000802A (zh) 2020-07-24 2020-07-24 基于相似度集成的软件缺陷定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010720348.3A CN112000802A (zh) 2020-07-24 2020-07-24 基于相似度集成的软件缺陷定位方法

Publications (1)

Publication Number Publication Date
CN112000802A true CN112000802A (zh) 2020-11-27

Family

ID=73466570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010720348.3A Pending CN112000802A (zh) 2020-07-24 2020-07-24 基于相似度集成的软件缺陷定位方法

Country Status (1)

Country Link
CN (1) CN112000802A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286799A (zh) * 2020-10-19 2021-01-29 杭州电子科技大学 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN113011179A (zh) * 2021-03-30 2021-06-22 南通大学 一种基于缺陷报告摘要中词性信息的严重程度预测方法
CN113051156A (zh) * 2021-03-16 2021-06-29 广东工业大学 一种基于区块链溯源与信息检索的软件缺陷定位方法
CN114416524A (zh) * 2021-12-15 2022-04-29 北京邮电大学 文件错误的定位方法及装置
US20220350967A1 (en) * 2021-05-03 2022-11-03 Accenture Global Solutions Limited Utilizing machine learning and natural language processing to determine mappings between work items of various tools

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN110109835A (zh) * 2019-05-05 2019-08-09 重庆大学 一种基于深度神经网络的软件缺陷定位方法
CN110502361A (zh) * 2019-08-29 2019-11-26 扬州大学 面向bug报告的细粒度缺陷定位方法
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN110109835A (zh) * 2019-05-05 2019-08-09 重庆大学 一种基于深度神经网络的软件缺陷定位方法
CN110502361A (zh) * 2019-08-29 2019-11-26 扬州大学 面向bug报告的细粒度缺陷定位方法
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUANGLIANG LIU ET AL.: "Mapping Bug Reports to Relevant Source Code Files Based on the Vector Space Model and Word Embedding", 《10.1109/ACCESS.2019.2922686》 *
董美含: "基于缺陷报告和源代码的相似缺陷识别方法", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286799A (zh) * 2020-10-19 2021-01-29 杭州电子科技大学 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN113051156A (zh) * 2021-03-16 2021-06-29 广东工业大学 一种基于区块链溯源与信息检索的软件缺陷定位方法
CN113051156B (zh) * 2021-03-16 2022-03-11 广东工业大学 一种基于区块链溯源与信息检索的软件缺陷定位方法
CN113011179A (zh) * 2021-03-30 2021-06-22 南通大学 一种基于缺陷报告摘要中词性信息的严重程度预测方法
CN113011179B (zh) * 2021-03-30 2023-10-20 南通大学 一种基于缺陷报告摘要中词性信息的严重程度预测方法
US20220350967A1 (en) * 2021-05-03 2022-11-03 Accenture Global Solutions Limited Utilizing machine learning and natural language processing to determine mappings between work items of various tools
CN114416524A (zh) * 2021-12-15 2022-04-29 北京邮电大学 文件错误的定位方法及装置
CN114416524B (zh) * 2021-12-15 2023-03-24 北京邮电大学 文件错误的定位方法及装置

Similar Documents

Publication Publication Date Title
Jung Semantic vector learning for natural language understanding
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
US20210109958A1 (en) Conceptual, contextual, and semantic-based research system and method
CN112000802A (zh) 基于相似度集成的软件缺陷定位方法
Vivaldi et al. Improving term extraction by system combination using boosting
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN113312480B (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN113196277A (zh) 用于检索自然语言文档的系统
CN113196278A (zh) 训练自然语言检索系统的方法、检索系统以及对应的用途
CN115098706A (zh) 一种网络信息提取方法及装置
Cheng et al. A similarity integration method based information retrieval and word embedding in bug localization
CN114896387A (zh) 军事情报分析可视化方法、装置以及计算机可读存储介质
Kiyavitskaya et al. Semi-Automatic Semantic Annotations for Web Documents.
Thalib et al. A review on question analysis, document retrieval and answer extraction method in question answering system
CN115934936A (zh) 一种基于自然语言处理的智能交通文本分析方法
Pham et al. Extracting positive attributions from scientific papers
Das et al. Analysis of bangla transformation of sentences using machine learning
US20240070175A1 (en) Method for Determining Company Related to News Based on Scoring and Apparatus for Performing the Method
US20240070387A1 (en) Method for Determining News Ticker Related to News Based on Sentence Ticker and Apparatus for Performing the Method
US20240070396A1 (en) Method for Determining Candidate Company Related to News and Apparatus for Performing the Method
US20240046039A1 (en) Method for News Mapping and Apparatus for Performing the Method
US11928427B2 (en) Linguistic analysis of seed documents and peer groups

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201127