CN107832781A - 一种面向多源数据的软件缺陷表示学习方法 - Google Patents
一种面向多源数据的软件缺陷表示学习方法 Download PDFInfo
- Publication number
- CN107832781A CN107832781A CN201710973976.0A CN201710973976A CN107832781A CN 107832781 A CN107832781 A CN 107832781A CN 201710973976 A CN201710973976 A CN 201710973976A CN 107832781 A CN107832781 A CN 107832781A
- Authority
- CN
- China
- Prior art keywords
- entity
- defect
- occurrence
- software
- software defect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Stored Programmes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向多源数据的软件缺陷表示学习方法。本发明对多源数据处理并形成缺陷数据集,从中选取训练集、测试集,选用word2vec对缺陷数据集进行词向量学习后经过聚类得到相似词及相似度并作为命名实体识别技术的特征输入,经过领域命名实体识别,选择出现最多的为关键命名实体,采用实体共现分析技术对关键命名实体进行共现分析,缺陷描述由词的组合转换为共现实体对和分布实体的集合,实现软件缺陷表示,最终将缺陷描述表示成一个特征向量。本发明克服了没有就软件缺陷本身的结构特征进行分析的缺陷。本发明利用词向量技术处理文本,结合多源数据,提取软件缺陷命名实体,分析共现实体对,从知识的角度对软件缺陷进行表示。
Description
技术领域
本发明属于软件工程领域,特别涉及一种面向多源数据的软件缺陷表示学习方法。
背景技术
缺陷修复是软件维护过程中的重要组成部分。近年来,随着软件项目的规模扩张和复杂度提升,在软件开发过程中出现了大量的缺陷,如何准确高效地解决这些缺陷已成为具有相当挑战性的工作。例如在目前缺陷修复推荐工作中,主要是通过提取新缺陷的关键词,与历史缺陷库中缺陷报告的关键词进行匹配,按照匹配度高低进行排序进行推荐,这种关键词-关键词推荐割裂了缺陷的整体语义结构。同时目前在线软件社区发展迅速,除了开源的缺陷跟踪系统缺陷库记录大量的缺陷报告,软件项目托管平台(GitHub等)存储许多开源项目实时更新的缺陷修复描述及评论,IT技术问答网站(Stack Overflow,SegmentFault等)也包含有许多与缺陷相关的问答信息,这些多源信息都能为bug修复提供参考,但是数据繁杂、结构各异,需求者很难立时全面准确地获取到相关信息。针对以上问题,本发明提出一种基于命名实体与词向量相结合的软件缺陷表示方法,能从知识的角度对软件缺陷进行表示,并且更好地利用文本的语法、语义信息,充分挖掘词与上下文的关系。
在本发明作出之前,目前,已有一些工作用来分析软件缺陷的分布特征。如Lin等人对三个开源项目进行统计,从缺陷来源、影响和组件三个不同方面软件缺陷进行分类,并进一步探讨语义性缺陷和内存性缺陷的分布比例和发展趋势,但并没有就软件缺陷本身的结构特征进行分析。也有一些工作完成了对整体软件环境领域的实体抽取,如Ye等人通过CRF++模型、布朗聚类技术对Stack Overflow网站中的软件问答数据进行命名实体的识别,缺乏针对性。
本发明针对软件缺陷这一专业领域,提出了实体识别、共现关系抽取、缺陷描述知识表示的完整方法。
发明内容
本发明技术方法是:
一种面向多源数据的软件缺陷表示学习方法,其主要技术特征在于如下步骤:
(1)缺陷数据准备;收集缺陷库中的数据,提取缺陷报告中的标题、描述、评论;收集问答网站中与缺陷相关的数据,提取问题、答案、评论、标签,收集在线词典、其他软件专业源中与缺陷相关的专业数据,包括wikipedia、官方API、GitHub;对上述三种来源的数据进行自然语言处理,如分词、词根还原、去掉停用词等,形成缺陷数据集;
(2)命名实体抽取;从缺陷数据中选取一定量缺陷报告作为待标注集训练命名实体识别模型;定义软件缺陷领域的16种实体类型,分别为core、GUI、Network、I/O、Driver、File System、Hardware、Language、API、Standard、Platform、Framework、Defect test、Mobile、common adjective、commom verb,对待标注集进行实体标记形成专业语料库,并随机分为训练集和测试集;对缺陷数据集中所有数据进行词向量训练、聚类,给出相似词及相似度并提取特征,选用命名实体识别模型对训练集进行训练;在选定的测试集上进行交叉验证得到软件缺陷实体标注器,对缺陷数据集进行实体抽取;
(3)命名实体共现;经过领域命名实体识别,选择出现最多的为关键命名实体,分析命名实体联系的紧密程度;计算命名实体对的共现频度、相对距离、共文档率,综合三个数值形成共现值,根据共现值进行排序,给定阀值选取阀值之上的实体对作为共现实体对,通过相似词对共现实体对进行扩展得到共现实体对集;
(4)软件缺陷表示;对软件缺陷描述进行实体识别,对识别出的实体进行TF-IDF即词频-逆文档频率加权平均计算,去除重复实体,抽取共现实体对,缺陷描述由词的组合转换为共现实体对和分布实体的集合;共现实体对的特征向量表示由构成该实体对的实体对应的词向量合并而成,TF-IDF值为构成该实体对的实体TF-IDF值平均值;综合实体的向量和TF-IDF值计算该实体的本地向量,对缺陷描述中所有实体的本地向量进行求和平均计算,最终将缺陷描述表示成一个特征向量。
本发明的优点和效果在于针对软件缺陷这一专业领域,提出了实体识别、共现关系抽取、缺陷描述知识表示的完整方法。即利用词向量技术处理文本,结合多源数据,提取软件缺陷命名实体,分析共现实体对,从知识的角度对软件缺陷进行表示。具体说,主要有如下一些优点:
(1)知识表示:本发明不是直接对缺陷报告提取关键词,而是从知识的角度对软件缺陷进行表示,并且更好地利用文本的语法、语义信息,充分挖掘词与上下文的关系。
①本发明中首度提出了软件缺陷命名实体识别的概念,通过对大量多项目缺陷报告数据进行标注软件缺陷语料库,训练软件缺陷命名实体标注器。
②鉴于软件缺陷描述的语法结构,在定义命名实体类别时,单独考虑了常用形容词、常用动词这两种词性的单独实体类别,这两类实体和其他名词类实体搭配的实体对很多已经成为缺陷描述的常规描述写法,本发明通过对实体共现的统计分析,挖掘出这些共现实体对,并通过相似词扩展,形成了一系列的共现实体对集,通过几个紧密联系的命名实体就可以得到软件缺陷的核心内容,另外,通过命名实体共现,可以扩展搜索推荐查询结果,为缺陷修复提供更多所需信息。
③考虑到目前大量移动空间性软件的出现,本发明特殊定义Mobile类型实体,为移动型软件缺陷的研究打下基础。
④本发明面向多源数据,而不只局限于缺陷跟踪系统缺陷库。软件项目托管平台(GitHub等)存储许多开源项目实时更新的缺陷修复描述及评论,IT技术问答网站(StackOverflow,SegmentFault等)也包含有许多与缺陷相关的问答信息,这些多源信息都可以参照本发明提出的方法进行分析,得到统一的表示结果。
(2)词向量表示:本发明针对软件缺陷这一专业领域,通过词向量学习提出了缺陷描述整体知识表示的方法。Word Embedding,中文译称“词向量”,这种表示法的优点在于可以让相似的词在距离上更为接近,能体现出词与词之间、词与上下文之间的相关性,从而反映词之间的依赖关系。本发明使用词向量学习赋予每个实体向量,在此基础上定义共现实体对、缺陷描述的特征向量表示方法,将非结构化的自然语言文本转化为机器学习算法可以理解的形式,为软件缺陷修复用户层面的实际应用研究打下基础。
附图说明
图1——本发明流程示意图。
图2——本发明软件缺陷表示流程示意图。
图3——本发明中抽取的Mozilla项目Fixed缺陷报告列表示意图。
图4——本发明中抽取的一个缺陷报告截图。
图5——本发明中软件缺陷使用word2vec训练的vector格式模型:bug.en.text.vector截图。
具体实施方式
本发明的技术思路是:
先对多源数据进行预处理,形成统一的缺陷数据集。从数据集中选取部分状态为fixed的缺陷报告进行标注形成语料库,其中一部分构成训练集,另一部分构成测试集。使用命名实体识别技术对训练集进行训练,选用word2vec对缺陷数据集进行词向量学习后经过聚类得到相似词及相似度并作为命名实体识别技术的特征输入,最后对测试集进行交叉检验得到知识实体标注器。经过领域命名实体识别,选择出现最多的为关键命名实体,采用实体共现分析技术对关键命名实体进行共现分析,分析后的实体对作为共现实体对,通过相似词对共现实体对进行扩展得到共现实体对集。对软件缺陷描述进行实体识别,对识别出的实体进行TF-IDF加权平均计算,去除重复实体,抽取共现实体对,缺陷描述由词的组合转换为共现实体对和分布实体的集合。综合实体(实体对)的向量和TF-IDF值计算该实体(对)的本地向量,最终将缺陷描述表示成一个特征向量。
下面具体说明本发明。
如图1-2所示,其步骤如下:
步骤1).收集4个开源软件项目的缺陷报告,考虑到缺陷数据的准确性,如图3所示,均提取状态为fixed的缺陷报告。从每个缺陷报告中提取标题、描述、评论、产品、组件,评论可以有效帮助甄别缺陷的来源,如图4所示,收集的报告数量分布如表1所示。
表1 4个项目提取缺陷报告数量分布表
software | Fixed BR | Sampled BR | Sampling Data |
Mozilla | 124K | 1000 | 2017.9 |
Apache | 10K | 450 | 2017.9 |
Eclipse | 21K | 300 | 2017.9 |
Linux | 3.7K | 350 | 2017.9 |
Total | 158.7K | 2100 |
选取Stack Overflow中含有bug、defect关键词的问答数据,提取问题、答案、评论、标签。另外收集在线词典、其他软件专业源中与缺陷相关的专业数据,包括wikipedia、官方API、GitHub。对上述三种来源的数据进行自然语言处理,如分词、词根还原、去掉停用词等,整理成txt文档,形成缺陷数据集。
步骤2).使用实体标注工具从数据集中随机选取部分状态为fixed的缺陷报告进行标注形成语料库,其中一部分构成训练集,其余部分构成测试集。从组件、专用名词、其他用词三方面分析,定义软件缺陷领域的16种实体类型,具体类型、标注标签和实例如表2所示。
表2 bug-specific Entity Categories
具体采用三标记法定义实体标签,标记释义如表3所示。
表3 三标记释义表
下面给出一个标注实例,如表4所示。加粗标记的部分即为对应的实体标记。
表4 完全标注数据对照表
选用word2vec对缺陷数据集进行词向量学习后经过聚类得到相似词及相似度并作为命名实体识别模型的特征输入,最后对测试集进行交叉检验从而得到了算法知识实体标注器。
步骤3).经过领域命名实体识别,选择出现最多的为关键命名实体,采用实体共现分析技术对关键命名实体进行共现分析,计算命名实体对的共现频度、相对距离、共文档率,综合三个数值形成共现值,根据共现值进行排序,给定阀值选取阀值之上的实体对作为共现实体对,通过相似词对共现实体对进行扩展得到共现实体对集。共现实体对实例如表5所示:
表5 部分实体共现值排序结果示意表
步骤4).经过预处理,每个软件缺陷转化为文档D可以表示为词的集合,其中t代表文档中的一个词,n为文档中词的个数:
D=(t1,t2,…,tn)
经过领域命名实体识别,由词表示的文档可以转换为由命名实体表示的文档D:D=(NE1,NE2,…,NEm)
其中NE表示命名实体,m表示命名实体个数,m<<n,可能有重复的实体。经过步骤2)在bug数据集上进行了深度学习,每个实体可以表示成维度为d,维度数为k的词向量模型:
Vec(NE)=(d1,d2,…,dk)
对文档中识别出的每个命名实体对应的词向量进行TF-IDF(TF-IDF与实体在文档中的出现次数成正比,与该实体在整个缺陷数据库中的出现次数成反比)计算,实体NEi在文档Ds中的TF-IDF值表示为:
tfidf(NEi,Ds)
去除重复实体,抽取共现实体对,缺陷描述由词的组合转换为共现实体对和分布实体(除实体对之外的独立实体)的集合D:
D=((NE1,NE2),(NE3,NE4),…,NEm-1,NEm)
共现实体对的特征向量表示由构成该实体对的实体对应的词向量合并而成,TF-IDF值为构成该实体对的实体TF-IDF值平均值:
Vec(NEi,NEj)=Vec(NEi)+Vec(NEj)
tfidf((NEi,NEj),Ds)=(tfidf(NEi,Ds)+tfidf(NEj,Ds))/2
综合实体(实体对)的向量和TF-IDF值计算该实体(对)的本地向量。对缺陷描述中所有实体(对)的本地向量进行求和平均计算,最终将缺陷描述表示成一个特征向量,下面公式中I表示共现实体对的个数,m-2I表示分布实体的个数,特征向量模型如图5所示。
Claims (1)
1.一种面向多源数据的软件缺陷表示学习方法,其特征在于如下步骤:
(1)缺陷数据准备;收集缺陷库中的数据,提取缺陷报告中的标题、描述、评论;收集问答网站中与缺陷相关的数据,提取问题、答案、评论、标签,收集在线词典、其他软件专业源中与缺陷相关的专业数据,包括wikipedia、官方API、GitHub;对上述三种来源的数据进行自然语言处理,如分词、词根还原、去掉停用词等,形成缺陷数据集;
(2)命名实体抽取;从缺陷数据中选取一定量缺陷报告作为待标注集训练命名实体识别模型;定义软件缺陷领域的16种实体类型,分别为core、GUI、Network、I/O、Driver、FileSystem、Hardware、Language、API、Standard、Platform、Framework、Defect test、Mobile、common adjective、commom verb,对待标注集进行实体标记形成专业语料库,并随机分为训练集和测试集;对缺陷数据集中所有数据进行词向量训练、聚类,给出相似词及相似度并提取特征,选用命名实体识别模型对训练集进行训练;在选定的测试集上进行交叉验证得到软件缺陷实体标注器,对缺陷数据集进行实体抽取;
(3)命名实体共现;经过领域命名实体识别,选择出现最多的为关键命名实体,分析命名实体联系的紧密程度;计算命名实体对的共现频度、相对距离、共文档率,综合三个数值形成共现值,根据共现值进行排序,给定阀值选取阀值之上的实体对作为共现实体对,通过相似词对共现实体对进行扩展得到共现实体对集;
(4)软件缺陷表示;对软件缺陷描述进行实体识别,对识别出的实体进行TF-IDF即词频-逆文档频率加权平均计算,去除重复实体,抽取共现实体对,缺陷描述由词的组合转换为共现实体对和分布实体的集合;共现实体对的特征向量表示由构成该实体对的实体对应的词向量合并而成,TF-IDF值为构成该实体对的实体TF-IDF值平均值;综合实体的向量和TF-IDF值计算该实体的本地向量,对缺陷描述中所有实体的本地向量进行求和平均计算,最终将缺陷描述表示成一个特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710973976.0A CN107832781B (zh) | 2017-10-18 | 2017-10-18 | 一种面向多源数据的软件缺陷表示学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710973976.0A CN107832781B (zh) | 2017-10-18 | 2017-10-18 | 一种面向多源数据的软件缺陷表示学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832781A true CN107832781A (zh) | 2018-03-23 |
CN107832781B CN107832781B (zh) | 2021-09-14 |
Family
ID=61648323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710973976.0A Active CN107832781B (zh) | 2017-10-18 | 2017-10-18 | 一种面向多源数据的软件缺陷表示学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832781B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062763A (zh) * | 2018-07-31 | 2018-12-21 | 云南大学 | 一种从svn日志事件流中动态实时挖掘软件过程活动的方法 |
CN109165382A (zh) * | 2018-08-03 | 2019-01-08 | 南京工业大学 | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 |
CN109408100A (zh) * | 2018-09-08 | 2019-03-01 | 扬州大学 | 一种基于多源数据的软件缺陷信息融合方法 |
CN109492113A (zh) * | 2018-11-05 | 2019-03-19 | 扬州大学 | 一种面向软件缺陷知识的实体、关系联合抽取方法 |
CN110134613A (zh) * | 2019-05-22 | 2019-08-16 | 北京航空航天大学 | 一种基于代码语义及背景信息的软件缺陷数据采集系统 |
CN111178075A (zh) * | 2019-12-19 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种在线客服日志分析方法和装置以及设备 |
CN112269779A (zh) * | 2020-10-30 | 2021-01-26 | 国网上海市电力公司 | 一种用于电力设备缺陷的大数据分析系统和方法 |
CN113342784A (zh) * | 2021-07-01 | 2021-09-03 | 贵州电网有限责任公司 | 一种电网主变设备风险评估的数据库设计方法 |
CN113448843A (zh) * | 2021-06-17 | 2021-09-28 | 南京航空航天大学 | 基于缺陷分析的图像识别软件测试数据增强方法及装置 |
CN114943229A (zh) * | 2022-04-15 | 2022-08-26 | 西北工业大学 | 一种基于多级别特征融合的软件缺陷命名实体识别方法 |
CN113448843B (zh) * | 2021-06-17 | 2024-05-28 | 南京航空航天大学 | 基于缺陷分析的图像识别软件测试数据增强方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130007747A1 (en) * | 2011-06-30 | 2013-01-03 | International Business Machines Corporation | Method and apparatus for managing a working task based on a communication message |
CN103473221A (zh) * | 2013-09-16 | 2013-12-25 | 于江德 | 汉语词法分析方法 |
CN103744788A (zh) * | 2014-01-22 | 2014-04-23 | 扬州大学 | 基于多源软件数据分析的特征定位方法 |
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
CN105760495A (zh) * | 2016-02-17 | 2016-07-13 | 扬州大学 | 一种基于知识图谱针对bug问题进行探索性搜索方法 |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
CN107045532A (zh) * | 2017-01-20 | 2017-08-15 | 中国科学院电子学研究所 | 时空地理空间可视化的分析方法 |
CN107066389A (zh) * | 2017-04-19 | 2017-08-18 | 西安交通大学 | 基于集成学习的软件缺陷重新打开的预测方法 |
-
2017
- 2017-10-18 CN CN201710973976.0A patent/CN107832781B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130007747A1 (en) * | 2011-06-30 | 2013-01-03 | International Business Machines Corporation | Method and apparatus for managing a working task based on a communication message |
CN103473221A (zh) * | 2013-09-16 | 2013-12-25 | 于江德 | 汉语词法分析方法 |
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
CN103744788A (zh) * | 2014-01-22 | 2014-04-23 | 扬州大学 | 基于多源软件数据分析的特征定位方法 |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
CN105760495A (zh) * | 2016-02-17 | 2016-07-13 | 扬州大学 | 一种基于知识图谱针对bug问题进行探索性搜索方法 |
CN107045532A (zh) * | 2017-01-20 | 2017-08-15 | 中国科学院电子学研究所 | 时空地理空间可视化的分析方法 |
CN107066389A (zh) * | 2017-04-19 | 2017-08-18 | 西安交通大学 | 基于集成学习的软件缺陷重新打开的预测方法 |
Non-Patent Citations (4)
Title |
---|
RAMIN SHOKRIPOUR 等: "Automatic Bug Assignment Using Information Extraction Methods", 《2012 INTERNATIONAL CONFERENCE ON ADVANCED COMPUTER SCIENCE APPLICATIONS AND TECHNOLOGIES (ACSAT)》 * |
RAMIN SHOKRIPOUR 等: "Why so complicated? simple term filtering and weighting for location-based bug report assignment recommendation", 《2013 10TH WORKING CONFERENCE ON MINING SOFTWARE REPOSITORIES (MSR)》 * |
孙小兵 等: "基于LoCMD的软件修改分析技术", 《软件学报》 * |
李湘东 等: "一种基于加权LDA模型和多粒度的文本特征选择方法", 《现代图书情报技术》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062763A (zh) * | 2018-07-31 | 2018-12-21 | 云南大学 | 一种从svn日志事件流中动态实时挖掘软件过程活动的方法 |
CN109062763B (zh) * | 2018-07-31 | 2022-03-04 | 云南大学 | 一种从svn日志事件流中动态实时挖掘软件过程活动的方法 |
CN109165382A (zh) * | 2018-08-03 | 2019-01-08 | 南京工业大学 | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 |
CN109408100A (zh) * | 2018-09-08 | 2019-03-01 | 扬州大学 | 一种基于多源数据的软件缺陷信息融合方法 |
US11169912B2 (en) | 2018-11-05 | 2021-11-09 | Yangzhou University | Entity and relationship joint extraction method oriented to software bug knowledge |
CN109492113A (zh) * | 2018-11-05 | 2019-03-19 | 扬州大学 | 一种面向软件缺陷知识的实体、关系联合抽取方法 |
WO2020093761A1 (zh) * | 2018-11-05 | 2020-05-14 | 扬州大学 | 一种面向软件缺陷知识的实体、关系联合抽取方法 |
CN109492113B (zh) * | 2018-11-05 | 2022-05-13 | 扬州大学 | 一种面向软件缺陷知识的实体、关系联合抽取方法 |
CN110134613A (zh) * | 2019-05-22 | 2019-08-16 | 北京航空航天大学 | 一种基于代码语义及背景信息的软件缺陷数据采集系统 |
CN110134613B (zh) * | 2019-05-22 | 2020-09-08 | 北京航空航天大学 | 一种基于代码语义及背景信息的软件缺陷数据采集系统 |
CN111178075A (zh) * | 2019-12-19 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种在线客服日志分析方法和装置以及设备 |
CN112269779A (zh) * | 2020-10-30 | 2021-01-26 | 国网上海市电力公司 | 一种用于电力设备缺陷的大数据分析系统和方法 |
CN113448843A (zh) * | 2021-06-17 | 2021-09-28 | 南京航空航天大学 | 基于缺陷分析的图像识别软件测试数据增强方法及装置 |
CN113448843B (zh) * | 2021-06-17 | 2024-05-28 | 南京航空航天大学 | 基于缺陷分析的图像识别软件测试数据增强方法及装置 |
CN113342784A (zh) * | 2021-07-01 | 2021-09-03 | 贵州电网有限责任公司 | 一种电网主变设备风险评估的数据库设计方法 |
CN114943229A (zh) * | 2022-04-15 | 2022-08-26 | 西北工业大学 | 一种基于多级别特征融合的软件缺陷命名实体识别方法 |
CN114943229B (zh) * | 2022-04-15 | 2024-03-12 | 西北工业大学 | 一种基于多级别特征融合的软件缺陷命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107832781B (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832781A (zh) | 一种面向多源数据的软件缺陷表示学习方法 | |
CN107609132B (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN107491531A (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
CN107330627B (zh) | 一种创新创意的大数据处理方法、服务器及系统 | |
CN108388660B (zh) | 一种改进的电商产品痛点分析方法 | |
CN109933668B (zh) | 简体汉语文本可读性的分级评估建模方法 | |
Shafin et al. | Product review sentiment analysis by using nlp and machine learning in bangla language | |
CN106777957B (zh) | 不平衡数据集上生物医学多参事件抽取的新方法 | |
CN107315738A (zh) | 一种文本信息的创新度评估方法 | |
CN107194617B (zh) | 一种app软件工程师软技能分类系统及方法 | |
Wu et al. | Slangsd: Building and using a sentiment dictionary of slang words for short-text sentiment classification | |
Ojokoh et al. | A feature-opinion extraction approach to opinion mining | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
Ao | Sentiment analysis based on financial tweets and market information | |
CN107451116A (zh) | 一种移动应用内生大数据统计分析方法 | |
Yatim et al. | A corpus-based lexicon building in Indonesian political context through Indonesian online news media | |
CN113742469A (zh) | 基于Pipeline处理和ES储存问答系统构建方法 | |
CN105760502A (zh) | 一种基于大数据文本挖掘的商品质量情感词典构建系统 | |
CN113361252A (zh) | 基于多模态特征和情感词典的文本抑郁倾向检测系统 | |
Siregar | Application of the Naive Bayes classifier method in the sentiment analysis of Twitter user about the capital city relocation | |
Jui et al. | A machine learning-based segmentation approach for measuring similarity between sign languages | |
CN107220238A (zh) | 一种基于混合网络模型的文本对象抽取方法 | |
Altrabsheh et al. | Combining Sentiment Lexicons of Arabic Terms. | |
Gutsche | Automatic weak signal detection and forecasting | |
CN102930042A (zh) | 一种倾向性文本自动分类系统及其实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |