CN109376247A - 一种基于关联规则的软件缺陷自动分类方法 - Google Patents

一种基于关联规则的软件缺陷自动分类方法 Download PDF

Info

Publication number
CN109376247A
CN109376247A CN201811346154.0A CN201811346154A CN109376247A CN 109376247 A CN109376247 A CN 109376247A CN 201811346154 A CN201811346154 A CN 201811346154A CN 109376247 A CN109376247 A CN 109376247A
Authority
CN
China
Prior art keywords
defect
classification
presentation
correlation rule
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811346154.0A
Other languages
English (en)
Other versions
CN109376247B (zh
Inventor
李斌
周澄
孙小兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN201811346154.0A priority Critical patent/CN109376247B/zh
Publication of CN109376247A publication Critical patent/CN109376247A/zh
Application granted granted Critical
Publication of CN109376247B publication Critical patent/CN109376247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关联规则的软件缺陷自动分类方法,包括以下步骤:首先提取缺陷报告中的文本内容,并对其进行预处理;之后随机采样状态为VERIFIED FIXED的缺陷,构建待分类缺陷集;再根据缺陷表象、缺陷发生原因对待分类缺陷集中的每一个缺陷进行缺陷表象类别和缺陷发生原因类别标注,获得缺陷表象类别分类集、缺陷发生原因类别分类集;然后挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则,从中筛选出强关联规则并将其转化为关系矩阵;最后利用深度学习方法对缺陷表象类别分类集进行训练,获取缺陷自动分类器。本发明同时从缺陷表象和产生原因两个维度对缺陷进行细粒度的自动分类,解决了现有技术中因缺陷信息量少而无法准确原因分类的短板。

Description

一种基于关联规则的软件缺陷自动分类方法
技术领域
本发明属于软件维护领域,特别是一种基于关联规则的软件缺陷自动分类方法。
背景技术
软件缺陷是软件质量维护过程中所要解决的最严重的问题之一,随着软件规模的不断扩增导致引入大量新缺陷,智能化缺陷修复已经成为业界研究的重点。及时有效的修复缺陷首先需要识别缺陷的表象和缺陷发生的原因,但是用户提交的缺陷报告往往不完整、不准确,只包含了缺陷的重现步骤、实际结果和预期结果,开发人员可以相对轻易地确定缺陷的表象,却需要耗费大量的时间来分析缺陷的产生原因。准确的缺陷分类是提高缺陷修复工作效率的重要手段,它可以降低开发人员分析缺陷产生根本原因的难度。但是目前主要的缺陷跟踪系统没有配备自动分类功能,多数都要依靠人工分类,耗时费力,且主要是单一地从某一个维度对缺陷进行分类,缺陷的分类效率和准确性都受到了限制。
目前,已有一些研究用来分析软件缺陷的不同类别之间的关联关系。如Song等人在“Software defect association mining and defect correction effortprediction”一文中使用Apriori算法挖掘类似关联规则“aΛb→c”,通过关联规则,根据已发生的缺陷来预测相关联的可能会发生的缺陷,实施缺陷修正。IBM公司定义了一个基于定性因果分析的缺陷衡量方法,并通过开发人员的反馈确认了真正的缺陷原因,但对开发人员的研究和分析能力有很高的要求。Tan等人在“Bug characteristics in open sourcesoftware”一文中对三个开源项目进行人工统计,从缺陷来源、影响和组件三个不同维度对软件缺陷进行分类,探究不同类别之间的相关性,以及不同类型缺陷频发趋势。但是上述这些研究均没有挖掘细粒度的缺陷表象和原因类别之间的关联关系,更没有将这些关联关系应用到缺陷自动分类上。另外有一些工作致力于研究缺陷自动分类技术,但这些技术中大多采用人工特征工程和浅层神经网络分类模型,而人工特征工程不具备很强的通用性,往往需要结合对不同软件的理解来选取不同的特征。除此之外,在文本表示上忽略文本上下文关系,每个词之间彼此独立,并且无法表征语义信息。
发明内容
本发明所解决的技术问题在于提供一种通过挖掘缺陷表象和原因类别之间的关联关系的缺陷自动分类方法。
实现本发明目的的技术解决方案为:一种基于关联规则的软件缺陷自动分类方法,包括以下步骤:
步骤1、提取缺陷报告中的文本内容,并对文本内容进行预处理形成缺陷数据集;
步骤2、从所述缺陷数据集中随机采样状态为VERIFIED FIXED的缺陷,构建待分类缺陷集;
步骤3、根据缺陷表象、缺陷发生原因对所述待分类缺陷集中的每一个缺陷进行缺陷表象类别标注和缺陷发生原因类别标注,获得缺陷表象类别分类集、缺陷发生原因类别分类集,分别记为A、B;
步骤4、挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则,从中筛选出强关联规则并将其转化为关系矩阵;
步骤5、利用深度学习方法对缺陷表象类别分类集进行训练,获取缺陷自动分类器,从而完成缺陷的自动分类。
本发明与现有技术相比,其显著优点为:1)本发明通过挖掘不同缺陷原因类别和缺陷表象类别之间的关联关系,利于开发人员根据相对容易判断的新缺陷表象预测出该缺陷产生的原因,提高了缺陷修复的效率;2)本发明定义了细粒度的缺陷表象和缺陷产生原因分类标准,该分类标准具有普适性,适合缺陷原因和表象分析,便于挖掘不同缺陷原因类别和表象类别之间的关联关系;3)本发明通过获取不同缺陷原因类别和缺陷表象类别之间的关联规则,并筛选出具有统计学意义的强关联规则,提高了缺陷原因预测的准确性;4)本发明的关联规则抽取方法不仅适用于缺陷表象类别和原因类别,还可以拓展到其他维度缺陷类别之间的关联关系定性分析,可扩展性比较强;5)本发明采用深度学习模型对缺陷进行分类,深度学习模型能够自动获取特征表达能力,去掉繁杂的人工特征工程,端到端的解决问题,充分挖掘缺陷报告文本数据的语义信息,得到准确的缺陷表象分类,为后续的缺陷产生原因预测提供可靠的基础;6)本发明采用深度学习HAN模型具有分层表示和attention(注意力)机制,更加适合缺陷分类,给词和句子赋予不同的权重,不仅能挖掘词之间还挖掘句子之间的语义关系,能够直观地展示整个缺陷报告中更加重要的词和句子;7)本发明对HAN进行了进一步改进,将缺陷因果关联规则转化为关系矩阵,改变HAN输出层,改善为双输出分类模型,同时输出缺陷所属的表象类别和原因类别。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于关联规则的软件缺陷自动分类方法的流程示意图,其中(a)为缺陷数据准备过程示意图,(b)为关联规则挖掘过程示意图,(c)为最终缺陷自动分类过程示意图。
图2为本发明实施例中抽取的Mozilla项目VERIFIED FIXED缺陷报告列表示意图。
图3为本发明实施例中抽取的一个缺陷报告截图。
图4为本发明实施例中选用的HAN模型结构图。
具体实施方式
结合图1,本发明一种基于关联规则的软件缺陷自动分类方法,包括以下步骤:
步骤1、提取缺陷报告中的文本内容,并对文本内容进行预处理形成缺陷数据集。其中,文本内容包括标题、描述和评论;预处理为自然语言处理,包括去除噪声、分句分词。
步骤2、从缺陷数据集中随机采样状态为VERIFIED FIXED的缺陷,构建待分类缺陷集。
步骤3、根据缺陷表象、缺陷发生原因对待分类缺陷集中的每一个缺陷进行缺陷表象类别标注和缺陷发生原因类别标注,获得缺陷表象类别分类集、缺陷发生原因类别分类集,分别记为A、B。其中,定义缺陷表象类别包括10种:Security、Performance、Process、Data、Compatibility、Information、User interface、Suggestion、Documentation、Function;定义缺陷发生原因类别包括12种:Compatibility、Environment、Norm、Configuration、Performance、User interface、Function、Interface、Logic、Computation、Assignment、Documentation。
步骤4、挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则,从中筛选出强关联规则并将其转化为关系矩阵。具体为:
步骤4-1、求取不同的缺陷表象类别、缺陷发生原因类别两两之间的支持度support、置信度confidence和提升度lift;
步骤4-2、利用Apriori算法挖掘频繁2-项集,形成关联规则其中,Ai为第i个缺陷表象类别,Bj为第j个缺陷发生原因类别,1≤i≤缺陷表象类别的总数,1≤j≤缺陷发生原因类别的总数;
步骤4-3、根据提升度lift、置信度confidence从步骤4-2关联规则中筛选出强关联规则。具体为:
步骤4-3-1、设定提升度lift的阈值为X,置信度confidence的阈值为Y;
步骤4-3-2、若缺陷表象类别、缺陷发生原因类别之间的提升度且置信度则该缺陷表象类别、缺陷发生原因类别之间的关联规则为强关联规则。
步骤5、利用深度学习方法对缺陷表象类别分类集进行训练,获取缺陷自动分类器,从而完成缺陷的自动分类。具体为:
步骤5-1、以深度学习模型为基础,在其输出层引入关系矩阵,获得双输出分类模型;
步骤5-2、将缺陷表象类别分类集划分为训练集和测试集;
步骤5-3、利用word2vec对缺陷数据集进行训练得到词向量模型,将其作为双输出分类模型的embedding输入;
步骤5-4、利用双输出分类模型对训练集进行训练,之后对测试集进行交叉验证从而获得缺陷自动分类器,完成缺陷的自动分类。
进一步地,深度学习模型为HAN。
实施例
基于关联规则的软件缺陷自动分类方法包括以下内容:
步骤1、收集2个开源软件项目的缺陷报告构建缺陷数据集,从每个缺陷报告中提取标题、描述和评论,收集的报告数量分布如下表1所示。将缺陷报告中提取的信息转换为txt文档,使用自然语言处理工具包(NLTK)对缺陷文档进行数据清洗,例如删除链接,代码片段和XML标记等。对文档进一步分句分词,每个文档都被转换为一系列的token。
表1 2个项目上缺陷数据数量分布表
software Bugset Document Sentence Token
Mozilla 200K 1000 63452 807534
Eclipse 50K 400 21380 249077
Total 250K 1400 84832 1056611
步骤2、结合图2,从缺陷数据集中随机采集状态为VERIFIED FIXED的缺陷形成待分类缺陷集。VERIFIED FIXED的缺陷报告信息比较全面,如图3所示,标题和描述中包含缺陷的重现步骤、预期结果和实际结果,易于判别缺陷表象,评论中有修改方案和缺陷可能原因讨论,易于判别缺陷原因。
步骤3、从缺陷发生原因和缺陷表象两个维度定义软件缺陷的分类标准,具体类别和分类标准如下表2、3所示。
表2缺陷发生原因分类标准
表3缺陷表象分类标准
根据上述分类标准,从缺陷发生原因和缺陷表象两个维度对待分类缺陷集进行类别标注,构成缺陷表象类别分类集和缺陷原因类别分类集。
步骤4、挖掘不同缺陷表象类别Ai和原因类别Bj之间的关联关系,计算两两类别之间的支持度(support)、置信度(confidence)和提升度(lift)。使用Apriori算法挖掘频繁2-项集,形成关联规则后项Bj是根据前项Ai进行推荐的。将关联规则根据前项Ai出现的概率P(Aj)从大到小进行排序,首先选取提升度>3的关联规则,再综合考虑提升度和置信度筛选出强关联规则。进一步将强关联规则转换为关系矩阵A10×12,行代表10个缺陷表象类别,列代表12个缺陷原因类别。如果Ai和Bj之间不存在关联规则,相应的元素ai,j为0。
步骤5、本实施例中选用的HAN模型结构图如图4所示,以HAN为基础,在其输出层引入关系矩阵,获得双输出分类模型,之后利用word2vec对缺陷数据集进行训练得到词向量模型,并将其作为双输出分类模型的embedding输入。将缺陷表象类别分类集划分为训练集和测试集。利用双输出分类模型对训练集进行训练,对测试集进行交叉验证得到缺陷自动分类器。
缺陷自动分类器是在HAN模型输出层使用softmax作为激活函数,隐含层最终输出10个神经单元代表了10个缺陷表象类别的预测值。对缺陷自动分类器进行改进,在输出层引入关系矩阵A10×12,在对缺陷表象类别进行分类的同时,将输出层中的缺陷表象预测值行向量X1×10=[x1,x2,…,x10]转化为缺陷原因预测值行向量Y1×12=[y1,y2,…,y12]:
Y1×12=X1×10A10×12
通过softmax函数对预测值进行归一化处理,计算出当前缺陷文档D属于每一个表象类别i的概率:
概率最高的标记为1,其他类别的概率标记为0,最终输出one-hot标签label,例如代表当前缺陷文档D属于第1个原因类别。经过以上步骤最后同时输出缺陷的表象类别标签和原因类别标签,得到双标签输出的缺陷自动分类器。
本发明探索了不同缺陷发生原因和缺陷表象之间的联系,并将这种经验性知识转化为机器学习算法可以理解的形式——关联规则。通过深度学习模型充分挖掘缺陷报告内部的语义信息,同时从缺陷表象和缺陷产生原因两个维度对缺陷进行细粒度的自动分类,解决了现有技术中因缺陷信息量少而无法准确原因分类的短板,帮助开发人员识别缺陷原因,制定修复方案。

Claims (8)

1.一种基于关联规则的软件缺陷自动分类方法,其特征在于,包括以下步骤:
步骤1、提取缺陷报告中的文本内容,并对文本内容进行预处理形成缺陷数据集;
步骤2、从所述缺陷数据集中随机采样状态为VERIFIED FIXED的缺陷,构建待分类缺陷集;
步骤3、根据缺陷表象、缺陷发生原因对所述待分类缺陷集中的每一个缺陷进行缺陷表象类别标注和缺陷发生原因类别标注,获得缺陷表象类别分类集、缺陷发生原因类别分类集,分别记为A、B;
步骤4、挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则,从中筛选出强关联规则并将其转化为关系矩阵;
步骤5、利用深度学习方法对缺陷表象类别分类集进行训练,获取缺陷自动分类器,从而完成缺陷的自动分类。
2.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法,其特征在于,步骤1所述文本内容包括标题、描述和评论。
3.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法,其特征在于,步骤1所述预处理为自然语言处理,包括去除噪声、分句分词。
4.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法,其特征在于,步骤3所述缺陷表象类别包括Security、Performance、Process、Data、Compatibility、Information、User interface、Suggestion、Documentation、Function;所述缺陷发生原因类别包括Compatibility、Environment、Norm、Configuration、Performance、Userinterface、Function、Interface、Logic、Computation、Assignment、Documentation。
5.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法,其特征在于,步骤4所述挖掘不同缺陷表象类别、缺陷发生原因类别之间的关联规则,从中筛选出强关联规则,具体为:
步骤4-1、求取不同的缺陷表象类别、缺陷发生原因类别两两之间的支持度support、置信度confidence和提升度lift;
步骤4-2、利用Apriori算法挖掘频繁2-项集,形成关联规则其中,Ai为第i个缺陷表象类别,Bj为第j个缺陷发生原因类别,1≤i≤缺陷表象类别的总数,1≤j≤缺陷发生原因类别的总数;
步骤4-3、根据提升度lift、置信度confidence从步骤4-2所述关联规则中筛选出强关联规则。
6.根据权利要求5所述的基于关联规则的软件缺陷自动分类方法,其特征在于,步骤4-3所述根据提升度lift、置信度confidence从步骤4-2的关联规则中筛选出强关联规则,具体为:
步骤4-3-1、设定提升度lift的阈值为X,置信度confidence的阈值为Y;
步骤4-3-2、若缺陷表象类别、缺陷发生原因类别之间的提升度且置信度则该缺陷表象类别、缺陷发生原因类别之间的关联规则为强关联规则。
7.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法,其特征在于,
步骤5所述利用深度学习方法对缺陷表象类别分类集进行训练,获取缺陷自动分类器,从而完成缺陷的自动分类,具体为:
步骤5-1、以深度学习模型为基础,在其输出层引入关系矩阵,获得双输出分类模型;
步骤5-2、将缺陷表象类别分类集划分为训练集和测试集;
步骤5-3、利用word2vec对缺陷数据集进行训练得到词向量模型,将其作为所述双输出分类模型的embedding输入;
步骤5-4、利用双输出分类模型对所述训练集进行训练,之后对所述测试集进行交叉验证获得缺陷自动分类器,完成缺陷的自动分类。
8.根据权利要求1所述的基于关联规则的软件缺陷自动分类方法,其特征在于,步骤5-1所述深度学习模型为HAN。
CN201811346154.0A 2018-11-13 2018-11-13 一种基于关联规则的软件缺陷自动分类方法 Active CN109376247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811346154.0A CN109376247B (zh) 2018-11-13 2018-11-13 一种基于关联规则的软件缺陷自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811346154.0A CN109376247B (zh) 2018-11-13 2018-11-13 一种基于关联规则的软件缺陷自动分类方法

Publications (2)

Publication Number Publication Date
CN109376247A true CN109376247A (zh) 2019-02-22
CN109376247B CN109376247B (zh) 2022-05-13

Family

ID=65388696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811346154.0A Active CN109376247B (zh) 2018-11-13 2018-11-13 一种基于关联规则的软件缺陷自动分类方法

Country Status (1)

Country Link
CN (1) CN109376247B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837866A (zh) * 2019-11-08 2020-02-25 国网新疆电力有限公司电力科学研究院 基于XGBoost的电力二次设备缺陷程度评估方法
CN112132796A (zh) * 2020-09-15 2020-12-25 佛山读图科技有限公司 以反馈数据自主学习提升检测精度的视觉检测方法和系统
CN112181814A (zh) * 2020-09-18 2021-01-05 武汉大学 一种针对于缺陷报告的多标签标记方法
CN112949874A (zh) * 2021-03-04 2021-06-11 国网江苏省电力有限公司南京供电分公司 一种配电终端缺陷特征自诊断方法及系统
CN113342784A (zh) * 2021-07-01 2021-09-03 贵州电网有限责任公司 一种电网主变设备风险评估的数据库设计方法
CN113435759A (zh) * 2021-07-01 2021-09-24 贵州电网有限责任公司 一种基于深度学习的一次设备风险智能评估方法
CN116009932A (zh) * 2022-12-24 2023-04-25 北京新数科技有限公司 一种基于关联规则的缺陷原因分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101442412A (zh) * 2008-12-18 2009-05-27 西安交通大学 一种基于软件缺陷及网络攻击关系挖掘的攻击预警方法
EP3392780A2 (en) * 2017-04-19 2018-10-24 Tata Consultancy Services Limited Systems and methods for classification of software defect reports

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101442412A (zh) * 2008-12-18 2009-05-27 西安交通大学 一种基于软件缺陷及网络攻击关系挖掘的攻击预警方法
EP3392780A2 (en) * 2017-04-19 2018-10-24 Tata Consultancy Services Limited Systems and methods for classification of software defect reports

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANGUANG SHEN 等: "Application Research on Positive and Negative Association Rules Oriented Software Defects", 《2009 INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SOFTWARE ENGINEERING》 *
颜乐鸣: "基于关联规则挖掘的软件缺陷分析研究", 《软件》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837866A (zh) * 2019-11-08 2020-02-25 国网新疆电力有限公司电力科学研究院 基于XGBoost的电力二次设备缺陷程度评估方法
CN112132796A (zh) * 2020-09-15 2020-12-25 佛山读图科技有限公司 以反馈数据自主学习提升检测精度的视觉检测方法和系统
CN112181814A (zh) * 2020-09-18 2021-01-05 武汉大学 一种针对于缺陷报告的多标签标记方法
CN112181814B (zh) * 2020-09-18 2021-11-16 武汉大学 一种针对于缺陷报告的多标签标记方法
CN112949874A (zh) * 2021-03-04 2021-06-11 国网江苏省电力有限公司南京供电分公司 一种配电终端缺陷特征自诊断方法及系统
CN112949874B (zh) * 2021-03-04 2022-10-04 国网江苏省电力有限公司南京供电分公司 一种配电终端缺陷特征自诊断方法及系统
CN113342784A (zh) * 2021-07-01 2021-09-03 贵州电网有限责任公司 一种电网主变设备风险评估的数据库设计方法
CN113435759A (zh) * 2021-07-01 2021-09-24 贵州电网有限责任公司 一种基于深度学习的一次设备风险智能评估方法
CN113435759B (zh) * 2021-07-01 2023-07-04 贵州电网有限责任公司 一种基于深度学习的一次设备风险智能评估方法
CN116009932A (zh) * 2022-12-24 2023-04-25 北京新数科技有限公司 一种基于关联规则的缺陷原因分析方法及系统

Also Published As

Publication number Publication date
CN109376247B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN109376247A (zh) 一种基于关联规则的软件缺陷自动分类方法
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
WO2018000269A1 (zh) 一种基于数据挖掘和众包的数据标注方法及系统
CN102591854B (zh) 针对文本特征的广告过滤系统及其过滤方法
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN112182246B (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN110188047A (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN109492106A (zh) 一种文本代码相结合的缺陷原因自动分类方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN107273295A (zh) 一种基于文本混乱度的软件问题报告分类方法
CN112199496A (zh) 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法
CN111949535A (zh) 基于开源社区知识的软件缺陷预测装置及方法
CN108228788A (zh) 办事指南自动提取并关联的方法及电子设备
US11615321B2 (en) Techniques for modifying the operation of neural networks
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
WO2020259391A1 (zh) 一种数据库脚本性能测试的方法及装置
CN111666748B (zh) 一种自动化分类器的构造方法以及识别决策的方法
CN110609936A (zh) 一种模糊地址数据智能分类的方法
CN115794803B (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN109871889B (zh) 突发事件下大众心理评估方法
CN110597796B (zh) 基于全生命周期的大数据实时建模方法及系统
CN106991171A (zh) 基于智慧校园信息服务平台的话题发现方法
CN115496630A (zh) 一种基于自然语言算法的专利撰写质量核检方法以及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant