CN109165382A - 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 - Google Patents

一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 Download PDF

Info

Publication number
CN109165382A
CN109165382A CN201810878021.1A CN201810878021A CN109165382A CN 109165382 A CN109165382 A CN 109165382A CN 201810878021 A CN201810878021 A CN 201810878021A CN 109165382 A CN109165382 A CN 109165382A
Authority
CN
China
Prior art keywords
word
defect
vector
similarity
sim
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810878021.1A
Other languages
English (en)
Other versions
CN109165382B (zh
Inventor
万夕里
张�杰
管昕洁
白光伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201810878021.1A priority Critical patent/CN109165382B/zh
Publication of CN109165382A publication Critical patent/CN109165382A/zh
Application granted granted Critical
Publication of CN109165382B publication Critical patent/CN109165382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种加权词向量和潜在语义分析结合的相似软件缺陷报告推荐的方法。本发明首先计算缺陷报告的加权词向量,得到相似度Sim1和Sim2;然后计算缺陷报告的LSI向量,得到相似度Sim3和Sim4;计算不同缺陷报告所涉及的产品和组件之间的相似度Sim5;计算要查询的缺陷报告和各候选缺陷报告之间的总相似度并进行升序排序,从候选缺陷报告中选出与要查询的缺陷报告总相似度最高的缺陷报告。本发明利用TF‑IDF方法为单个词的词向量增加权重,特别适用于短文本,表示了缺陷报告中各个词的重要程度。同时利用潜在语义索引方法计算缺陷报告的相似度。二者结合能够很好地分析缺陷报告之间的相似度,明显提高向开发者推荐相似的缺陷报告的准确性,加快软件缺陷的修复。

Description

一种加权词向量和潜在语义分析结合的相似缺陷报告推荐 方法
技术领域
本发明涉及一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,属于计算机软件工程领域。
背景技术
在软件开发和维护的过程中,为了保证软件系统的质量,开发者通常会允许用户或者测试人员提交所遇到的软件缺陷。很多开源项目都会采用缺陷追踪系统来记录用户或测试人员提交的缺陷。如果软件系统比较复杂,则用户提交的缺陷报告也会比较多,如开源项目Eclipse每天报告的缺陷高达300个。如此多的缺陷报告必然会产生大量重复的缺陷报告。为了加快缺陷的修复速度,保证系统的稳定性和安全性,同时也为了减少开发者的工作量,在大量缺陷报告中找出重复的缺陷报告就变得非常重要。
传统的方法主要采用信息检索的方法来查找相似的缺陷报告,如基于余弦相似度来计算缺陷报告的相似度。但这些方法都存在着准确度比较低的缺点,效果比较差。
词向量技术是自然语言处理中的对语言模型和特征学习的一种技术。词向量能够将高维词向量嵌入到低维的向量空间中,能够很好地表示词与词之间的关系。之前已经有工作将词向量使用到相似缺陷报告的发现中,如采用平均词向量表示缺陷报告。但由于在缺陷报告中,无论是缺陷报告的标题还是具体的描述,长度都较短,直接采用词向量不能够很好地表示缺陷报告的标题的具体描述。
TF-IDF也称为词频-逆文件频率,是信息检索中常用的技术。TF-IDF被用来表示一个词语对于文档或者是语料库的重要程度。TF-IDF的原理是词语的重要性与该词文档中出现的次数成正比,与该词在语料库中出现的次数成反比。通过使用TF-IDF作为权重,能够很好地表示在该词在报告中的重要程度。
LSI全称潜在语义索义,也称为潜在语义分析,是自然语言处理中常用的一种技术。LSI能够根据字词所在的环境分析字词的隐藏含义。其基本原理是利用奇异值分解将文档原始向量进行降维处理,所以LSI是一种基于向量空间模型的语义分析方法。LSI通过使用低维向量,有效地降低的数据的复杂程度,同时降低了数据中的噪声。
发明内容
本发明所要解决的技术问题是针对当前相似软件缺陷报告推荐的准确度比较低的情况,提出一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法。
本发明为解决上述技术问题采用以下技术方案:
本发明提出一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,具体包括以下步骤:
步骤一、分别计算每个缺陷报告的加权词向量,然后根据所述加权词向量计算缺陷报告的标题相似度Sim1和描述相似度Sim2
步骤二、分别计算每个缺陷报告的LSI向量;然后根据所述LSI向量计算缺陷报告的标题相似度Sim3和描述相似度Sim4
步骤三、计算不同缺陷报告所涉及的产品和组件之间的相似度Sim5
步骤四、根据步骤一至步骤三所得的相似度,计算缺陷报告之间的总相似度;
步骤五、计算要查询的缺陷报告和各候选缺陷报告之间的总相似度并进行升序排序,从候选缺陷报告中选出与要查询的缺陷报告总相似度最高的缺陷报告。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤一所述的具体步骤包括:
步骤1.1、在一篇缺陷报告中,分别计算每个词在所述缺陷报告中的权重;
步骤1.2、将所述缺陷报告中的词分别转化成固定长度的向量,得到每个词的词向量;
步骤1.3、分别计算所述缺陷报告的标题加权词向量和描述加权词向量;
步骤1.4、分别计算缺陷报告之间的标题相似度Sim1和描述相似度Sim2
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤1.1所述的计算得到词w在所述缺陷报告中的权重的具体步骤包括:
词w的权重weight(w)=TF(w,d)*IDF(w);TF(w,d)表示词频,标题和描述的词频分别由下式得到:
其中,w表示当前词;d表示当前缺陷报告;IDF(w)表示逆向文档频率,由下式得到:
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤1.2所述的得到每个词的词向量的具体步骤包括:
由skip-gram模型的目标函数得到词向量v:
其中,n表示缺陷报告的标题或者描述的长度,p(wj|wi)是词的条件概率,Cw表示词
w的上下文的集合;其中,词的条件概率p(wj|wi)由下式得到:
其中,向量vw为由词w转化而来的词向量,所述词向量长度为a。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤1.3所述的具体步骤包括:
首先分别对标题和描述中的词,根据词的TF-IDF值从高到低排序;此时获得具有新顺序的标题和描述;
然后由下式分别计算标题加权词向量vt和描述加权词向量vc
vt=(weightt1v1,weightt2v2,...,weighttwvw,...,weighttpvp)
vc=(weightc1v1,weightc2v2,...,weightcwvw,...,weightcqvq)
其中weightw是词w的权重,由词的TF-IDF值表示,weighttw为词w在标题中的权重,weightcw为词w在描述中的权重;vw是词w的词向量;p为标题中词的数量,q为描述中词的数量。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤1.4所述的由加权词向量得到两个缺陷报告之间的相似度Sim1,Sim2的步骤具体包括:
其中,vt1,vc1分别为来自其中一个缺陷报告的标题加权词向量和描述加权词向量,vt2,vc2分别为来自其中另一个缺陷报告的标题加权词向量和描述加权词向量;vt1、vt2的向量长度相同;vc1,vc2的向量长度相同;若长度不同,取较长向量的长度,并且在较短的向量后面补0直到两个向量长度相同。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤二所述的具体步骤包括:
步骤2.1、由步骤一中缺陷报告的加权词向量通过奇异值分解得到LSI向量;
步骤2.2、计算两缺陷报告之间的余弦相似度,其中标题相似度Sim3和描述相似度Sim4
其中,v′t1和v′c1分别为来自其中一个缺陷报告的标题LSI向量和描述LSI向量;v′t2和v′c2分别为来自其中另一个缺陷报告的标题LSI向量和描述LSI向量。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤三所述产品和组件之间的相似度Sim5来自:
其中,set1和set2分别是产品和组件的集合。
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,步骤四所述的总相似度Sim=(Sim1+Sim2+Sim3+Sim4)*Sim5
如前所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,进一步地,所述由词转化来的向量的固定长度为400。
本发明采用以上技术方案与现有技术相比,具有以下的优点:
1.同时采用skip-gram模型的词向量和LSI向量表示缺陷报告中的文本。skip-gram模型的词向量使向量表示能够挖掘词的上下文之间的信息。LSI向量能够分析词语的潜在语义,但无法分析词语的上下文。将两种方法结合使用,能够进行互补,充分挖掘缺陷报告中文本的含义。
2.针对软件缺陷报告中的文本多为短文本的情况,为文本的词向量引入权重。由于短文本的长度较小,无用词语在短文本中所占的比重相对于在长文本中所占的比重较大,对文本表示的精确性影响也较大。为短文本中的词向量引入权重,能够提高重要的词语在表示短文本时的比重,降低无用词语所占的比重,从而提高词向量表示短文本的准确性。
3.借助缺陷报告中的产品和组件信息计算相似度。由于在软件缺陷报告中,相似的缺陷报告基本上会出现在相同的产品和组件中。所以在计算相似度时,通过计算两份缺陷报告中涉及到的产品和组件信息的重合程度,提高相似度计算的准确性。
附图说明
图1是本发明整体的流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明针对当前相似软件缺陷报告推荐算法的缺陷,提出了将加权词向量和信息检索中的潜在语义索引方法相合的推荐算法。针对缺陷报告中以短文本为主的事实对传统词向量进行优化,更好地表示了缺陷报告中的短文本,同时提高推荐算法的准确性。
首先需要对软件缺陷报告进行处理。通常情况下,在系统缺陷追踪系统中缺陷报告涉及到的信息比较复杂,不仅仅包括标题、具体描述、产品及组件,所以需要将缺陷报告中这四个部分的内容提取出来。由于本发明中的推荐算法是基于词语的,所以在相关内容提取完成后,需要对标题和具体描述进行分词处理。同时,由于缺陷报告中的特殊符号和数字对相似度的计算没有作用,所以需要去除报告中的数字以及符号。如果涉及到英语单词,需要对英语单词的形式进行处理,如将大写字母转化为小写字母、单词转换为基本形式。此时完成软件缺陷告的处理。
完成数据清洗后,计算查询缺陷报告和所有候选缺陷报告之间的相似度。计算相似度的步骤如图1所示。具体包括以下步骤:
步骤一、计算加权词向量,并且根据加权词向量计算缺陷报告的相似度,具体步骤如下:
步骤1.1、在一篇缺陷报告中,分别计算每个词在所述缺陷报告中的权重:
weight(w)=TF(w,d)*IDF(w);
其中,TF(w,d)表示词频,标题和描述的词频分别由下式得到:
其中,w表示当前词;d表示当前缺陷报告;IDF(w)表示逆向文档频率,由下式得到:
步骤1.2、将所述缺陷报告中的词分别转化成固定长度的向量,得到每个词的词向量:
由skip-gram模型的目标函数得到词向量v:
其中,n表示缺陷报告的标题或者描述的长度,p(wj|wi)是词的条件概率,Cw表示词
w的上下文的集合;其中,词的条件概率p(wj|wi)由下式得到:
其中,向量vw为由词w转化而来的词向量,所述词向量长度为一定值。在词
向量中,每一个词都会被转化为一个固定长度a的向量vi.本实施例中,长度a取400。
步骤1.3、分别计算所述缺陷报告的标题加权词向量和描述加权词向量:
在步骤1.1和步骤1.2中,计算的是缺陷报告标题或者描述中单个词的词向量,所述单个词的向量集合用于准确地表示完整的标题和描述。
首先分别对标题和描述中的词,根据词的TF-IDF值从高到低排序;此时获得具有新顺序的标题和描述;
然后由下式分别计算标题词向量vt和描述词向量vd
vt=(weightt1v1,weightt2v2,...,weighttwvw,...,weighttpvp)
vc=(weightc1v1,weightc2v2,...,weightcwvw,...,weightcqvq)
其中weightw是词w的权重,由词的TF-IDF值表示,weighttw为词w在标题中的权重,weightcw为词w在描述中的权重;vw是词w的词向量;p为标题中词的数量,q为描述中词的数量。
步骤1.4、分别计算缺陷报告之间的标题加权相似度Sim1和描述加权相似度Sim2
其中,vt1,vc1分别为来自其中一个缺陷报告的标题加权词向量和描述加权词向量,vt2,vc2分别为来自其中另一个缺陷报告的标题加权词向量和描述加权词向量;vt1、vt2的向量长度相同;vc1,vc2的向量长度相同;若所述向量的长度不同,取较长向量的长度,并且在较短的向量后面补0直到两个向量长度相同。
步骤二、分别计算每个缺陷报告的LSI向量;然后根据所述LSI向量计算缺陷报告的相似度:
步骤2.1、由步骤一中词的TF-IDF值组成的向量通过奇异值分解得到LSI向量;
步骤2.2、计算两缺陷报告之间的余弦相似度,其中标题相似度Sim3和描述相似度Sim4
其中,v′t1和v′c1分别为来自其中一个缺陷报告的标题LSI向量值和描述LSI向量值;v′t2和v′c2分别为来自其中另一个缺陷报告的标题LSI向量值和描述LSI向量值。
步骤三、计算不同缺陷报告所涉及的产品和组件之间的相似度Sim5
其中,set1和set2分别是产品和组件的集合。由上式可以看出,若两者都相同,则Sim5取值为1。若两者都不相同则Sim5为0;产品和组件其中一个相同则Sim5为0.5。
步骤四、根据步骤一至步骤三所得的相似度,计算缺陷报告之间的总相似度;
总相似度Sim=(Sim1+Sim2+Sim3+Sim4)*Sim5
步骤五、计算要查询的缺陷报告和各候选缺陷报告之间的总相似度并进行升序排序,从候选缺陷报告中选出与要查询的缺陷报告总相似度最高的缺陷报告。在选择时,选取相似度最高的前5个缺陷报告作为相似的报告。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,具体包括以下步骤:
步骤一、分别计算每个缺陷报告的加权词向量,然后根据所述加权词向量计算缺陷报告的标题相似度Sim1和描述相似度Sim2
步骤二、分别计算每个缺陷报告的LSI向量;然后根据所述LSI向量计算缺陷报告的标题相似度Sim3和描述相似度Sim4
步骤三、计算不同缺陷报告所涉及的产品和组件之间的相似度Sim5
步骤四、根据步骤一至步骤三所得的相似度,计算缺陷报告之间的总相似度;
步骤五、计算要查询的缺陷报告和各候选缺陷报告之间的总相似度并进行升序排序,从候选缺陷报告中选出与要查询的缺陷报告总相似度最高的缺陷报告。
2.如权利要求1所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤一所述的具体步骤包括:
步骤1.1、在一篇缺陷报告中,分别计算每个词在所述缺陷报告中的权重;
步骤1.2、将所述缺陷报告中的词分别转化成固定长度的向量,得到每个词的词向量;
步骤1.3、分别计算所述缺陷报告的标题加权词向量和描述加权词向量;
步骤1.4、分别计算缺陷报告之间的标题相似度Sim1和描述相似度Sim2
3.如权利要求2所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤1.1所述的计算得到词w在所述缺陷报告中的权重的具体步骤包括:
词w的权重weight(w)=TF(w,d)*IDF(w);TF(w,d)表示词频,标题和描述的词频分别由下式得到:
其中,w表示当前词;d表示当前缺陷报告;IDF(w)表示逆向文档频率,由下式得到:
4.如权利要求2所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤1.2所述的得到每个词的词向量的具体步骤包括:
由skip-gram模型的目标函数得到词向量v:
其中,n表示缺陷报告的标题或者描述的长度,p(wj|wi)是词的条件概率,Cw表示词w的上下文的集合;其中,词的条件概率p(wj|wi)由下式得到:
其中,向量vw为由词w转化而来的词向量,所述词向量长度为a。
5.如权利要求1所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤1.3所述的具体步骤包括:
首先分别对标题和描述中的词,根据词的TF-IDF值从高到低排序;此时获得具有新顺序的标题和描述;
然后由下式分别计算标题加权词向量vt和描述加权词向量vc
vt=(weightt1v1,weightt2v2,...,weighttwvw,...,weighttpvp)
vc=(weightc1v1,weightc2v2,...,weightcwvw,...,weightcqvq)
其中weightw是词w的权重,由词的TF-IDF值表示,weighttw为词w在标题中的权重,weightcw为词w在描述中的权重;vw是词w的词向量;p为标题中词的数量,q为描述中词的数量。
6.如权利要求1所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤1.4所述的由加权词向量得到两个缺陷报告之间的相似度Sim1,Sim2的步骤具体包括
其中,vt1,vc1分别为来自其中一个缺陷报告的标题加权词向量和描述加权词向量,vt2,vc2分别为来自其中另一个缺陷报告的标题加权词向量和描述加权词向量;vt1、vt2的向量长度相同;vc1,vc2的向量长度相同;若长度不同,取较长向量的长度,并且在较短的向量后面补0直到两个向量长度相同。
7.如权利要求1所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤二所述的具体步骤包括:
步骤2.1、由步骤一中缺陷报告的加权词向量通过奇异值分解得到LSI向量;
步骤2.2、计算两缺陷报告之间的余弦相似度,其中标题相似度Sim3和描述相似度Sim4
其中,v′t1和v′c1分别为来自其中一个缺陷报告的标题LSI向量和描述LSI向量;v′t2和v′c2分别为来自其中另一个缺陷报告的标题LSI向量和描述LSI向量。
8.如权利要求1所述的一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,其特征在于,步骤三所述产品和组件之间的相似度Sim5来自:
其中,set1和set2分别是产品和组件的集合。
9.如权利要求1所述的一种结合加权词向量和信息检索方法的相似软件缺陷报告推荐的方法,其特征在于,步骤四所述的总相似度Sim=(Sim1+Sim2+Sim3+Sim4)*Sim5
10.如权利要求1,2或4所述的一种结合加权词向量和信息检索方法的相似软件缺陷报告推荐的方法,其特征在于,所述由词转化来的向量的固定长度为400。
CN201810878021.1A 2018-08-03 2018-08-03 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 Active CN109165382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810878021.1A CN109165382B (zh) 2018-08-03 2018-08-03 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810878021.1A CN109165382B (zh) 2018-08-03 2018-08-03 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法

Publications (2)

Publication Number Publication Date
CN109165382A true CN109165382A (zh) 2019-01-08
CN109165382B CN109165382B (zh) 2022-08-23

Family

ID=64898863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810878021.1A Active CN109165382B (zh) 2018-08-03 2018-08-03 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法

Country Status (1)

Country Link
CN (1) CN109165382B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399458A (zh) * 2019-07-04 2019-11-01 淮阴工学院 一种基于潜在语义分析和随机投影的文本相似度计算方法
CN111309865A (zh) * 2020-02-12 2020-06-19 扬州大学 相似缺陷报告推荐方法、系统、计算机设备和存储介质
CN112699018A (zh) * 2020-10-23 2021-04-23 西安交通大学 基于软件缺陷关联分析的软件缺陷定位方法
CN112799960A (zh) * 2021-02-25 2021-05-14 南京邮电大学 一种针对CPython和PyPy的解释器缺陷自动分类方法
CN113220565A (zh) * 2021-04-26 2021-08-06 广东拓思软件科学园有限公司 一种众包测试报告的处理方法及装置
CN113554053A (zh) * 2021-05-20 2021-10-26 重庆康洲大数据有限公司 一种比较中药处方相似性的方法
CN113743096A (zh) * 2020-05-27 2021-12-03 南京大学 一种基于自然语言处理的众包测试报告相似度检测的方法
CN114462399A (zh) * 2020-11-09 2022-05-10 中核核电运行管理有限公司 一种核电厂质量缺陷报告与状态报告的精确匹配方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112068A1 (en) * 2004-11-23 2006-05-25 Microsoft Corporation Method and system for determining similarity of items based on similarity objects and their features
US20100179933A1 (en) * 2009-01-12 2010-07-15 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions
US20100191731A1 (en) * 2009-01-23 2010-07-29 Vasile Rus Methods and systems for automatic clustering of defect reports
US20110258609A1 (en) * 2010-04-14 2011-10-20 International Business Machines Corporation Method and system for software defect reporting
US20110321007A1 (en) * 2010-06-29 2011-12-29 International Business Machines Corporation Targeting code sections for correcting computer program product defects using records of a defect tracking system
CN103970666A (zh) * 2014-05-29 2014-08-06 重庆大学 一种软件重复缺陷报告检测的方法
CN105159822A (zh) * 2015-08-12 2015-12-16 南京航空航天大学 一种基于文本词性和程序调用关系的软件缺陷定位方法
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
WO2017107566A1 (zh) * 2015-12-25 2017-06-29 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和系统
CN107832781A (zh) * 2017-10-18 2018-03-23 扬州大学 一种面向多源数据的软件缺陷表示学习方法
CN107957929A (zh) * 2017-11-20 2018-04-24 南京大学 一种基于主题模型的软件缺陷报告修复人员分配方法
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112068A1 (en) * 2004-11-23 2006-05-25 Microsoft Corporation Method and system for determining similarity of items based on similarity objects and their features
US20100179933A1 (en) * 2009-01-12 2010-07-15 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions
US20100191731A1 (en) * 2009-01-23 2010-07-29 Vasile Rus Methods and systems for automatic clustering of defect reports
US20110258609A1 (en) * 2010-04-14 2011-10-20 International Business Machines Corporation Method and system for software defect reporting
US20110321007A1 (en) * 2010-06-29 2011-12-29 International Business Machines Corporation Targeting code sections for correcting computer program product defects using records of a defect tracking system
CN103970666A (zh) * 2014-05-29 2014-08-06 重庆大学 一种软件重复缺陷报告检测的方法
CN105159822A (zh) * 2015-08-12 2015-12-16 南京航空航天大学 一种基于文本词性和程序调用关系的软件缺陷定位方法
WO2017107566A1 (zh) * 2015-12-25 2017-06-29 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和系统
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
CN107832781A (zh) * 2017-10-18 2018-03-23 扬州大学 一种面向多源数据的软件缺陷表示学习方法
CN107957929A (zh) * 2017-11-20 2018-04-24 南京大学 一种基于主题模型的软件缺陷报告修复人员分配方法
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DHARMENDRA SHARMA等: "Context-based weighting for vector space model to evaluate the relation between concept and context in information storage and retrieval system", 《2015 INTERNATIONAL CONFERENCE ON COMPUTER, COMMUNICATION AND CONTROL (IC4)》 *
JIANXIONG YANG等: "Decomposition of term-document matrix representation for clustering analysis", 《2011 IEEE INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS (FUZZ-IEEE 2011)》 *
杨长春等: "基于weight-pooling词向量的上下文广告推荐算法", 《计算机应用与软件》 *
汪静等: "基于Word2Vec的中文短文本分类问题研究", 《计算机系统应用》 *
陈龙等: "Onboard:以数据驱动的敏捷软件开发协同工具", 《计算机研究与发展》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399458A (zh) * 2019-07-04 2019-11-01 淮阴工学院 一种基于潜在语义分析和随机投影的文本相似度计算方法
CN110399458B (zh) * 2019-07-04 2023-05-26 淮阴工学院 一种基于潜在语义分析和随机投影的文本相似度计算方法
CN111309865A (zh) * 2020-02-12 2020-06-19 扬州大学 相似缺陷报告推荐方法、系统、计算机设备和存储介质
CN111309865B (zh) * 2020-02-12 2024-03-22 扬州大学 相似缺陷报告推荐方法、系统、计算机设备和存储介质
CN113743096A (zh) * 2020-05-27 2021-12-03 南京大学 一种基于自然语言处理的众包测试报告相似度检测的方法
CN112699018A (zh) * 2020-10-23 2021-04-23 西安交通大学 基于软件缺陷关联分析的软件缺陷定位方法
CN112699018B (zh) * 2020-10-23 2023-06-20 西安交通大学 基于软件缺陷关联分析的软件缺陷定位方法
CN114462399A (zh) * 2020-11-09 2022-05-10 中核核电运行管理有限公司 一种核电厂质量缺陷报告与状态报告的精确匹配方法
CN112799960A (zh) * 2021-02-25 2021-05-14 南京邮电大学 一种针对CPython和PyPy的解释器缺陷自动分类方法
CN113220565A (zh) * 2021-04-26 2021-08-06 广东拓思软件科学园有限公司 一种众包测试报告的处理方法及装置
CN113220565B (zh) * 2021-04-26 2022-05-27 广东拓思软件科学园有限公司 一种众包测试报告的处理方法及装置
CN113554053A (zh) * 2021-05-20 2021-10-26 重庆康洲大数据有限公司 一种比较中药处方相似性的方法

Also Published As

Publication number Publication date
CN109165382B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN109165382B (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
JP7282940B2 (ja) 電子記録の文脈検索のためのシステム及び方法
Zhou et al. An unsupervised framework of exploring events on twitter: Filtering, extraction and categorization
US10102254B2 (en) Confidence ranking of answers based on temporal semantics
US10430255B2 (en) Application program interface mashup generation
US8321418B2 (en) Information processor, method of processing information, and program
CN106407113B (zh) 一种基于Stack Overflow和commit库的bug定位方法
US9760828B2 (en) Utilizing temporal indicators to weight semantic values
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
Chatterjee et al. Text classification using SVM enhanced by multithreading and CUDA
CN104484380A (zh) 个性化搜索方法及装置
US10242002B2 (en) Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
US10229184B2 (en) Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
US10191786B2 (en) Application program interface mashup generation
US12118314B2 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
Madatov et al. Dataset of Karakalpak language stop words
Sweidan et al. Autoregressive Feature Extraction with Topic Modeling for Aspect-based Sentiment Analysis of Arabic as a Low-resource Language
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Kim et al. Bat4RCT: A suite of benchmark data and baseline methods for text classification of randomized controlled trials
Lapeña et al. Exploring new directions in traceability link recovery in models: The process models case
CN113868424A (zh) 文本主题的确定方法、装置、计算机设备及存储介质
KR20210146832A (ko) 토픽 키워드의 추출 장치 및 방법
TW201822031A (zh) 以文字資訊建立圖表索引方法及其電腦程式產品
CN112417857A (zh) 专利文本分析方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant