CN112257963A - 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置 - Google Patents

基于航天软件缺陷数据分布离群点的缺陷预测方法及装置 Download PDF

Info

Publication number
CN112257963A
CN112257963A CN202011311120.5A CN202011311120A CN112257963A CN 112257963 A CN112257963 A CN 112257963A CN 202011311120 A CN202011311120 A CN 202011311120A CN 112257963 A CN112257963 A CN 112257963A
Authority
CN
China
Prior art keywords
outlier
defect
data
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011311120.5A
Other languages
English (en)
Other versions
CN112257963B (zh
Inventor
李鹏宇
江云松
冯涛
高猛
滕俊元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sunwise Information Technology Ltd
Original Assignee
Beijing Sunwise Information Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sunwise Information Technology Ltd filed Critical Beijing Sunwise Information Technology Ltd
Priority to CN202011311120.5A priority Critical patent/CN112257963B/zh
Publication of CN112257963A publication Critical patent/CN112257963A/zh
Application granted granted Critical
Publication of CN112257963B publication Critical patent/CN112257963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于航天软件缺陷数据分布离群点的缺陷预测方法及装置,包括:根据存在离群点现象的样本数据,构建航天嵌入式软件缺陷数据对应的离群点训练集和离群点测试集;根据所述离群点训练集,训练得到第一数量的软件缺陷预测模型;根据所述离群点测试集,对所述软件缺陷预测模型进行测试验证,并按照评价指标对所述软件缺陷预测模型进行排序,得到排序预测模型;基于遗传算法构建自动化搜索优化算法,并结合所述排序预测模型在元分类器基础上逐层递归,查找可被替换的模型节点;根据不同的评价指标和所述模型节点,优化得到目标模型结构,并获取航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。本发明可以提高第三方软件测评效率。

Description

基于航天软件缺陷数据分布离群点的缺陷预测方法及装置
技术领域
本发明涉及软件缺陷预测技术领域,特别是一种基于航天软件缺陷数据分布离群点的缺陷预测方法及装置。
背景技术
有关数据分布离群点的检测研究大多数都是在统计学领域进行的,这些研究可以大致分为两类。第一类是基于统计分布方法,其中使用标准分布(例如正态分布,泊松分布等)来最佳拟合数据,离群值是根据概率分布定义的。这类测试的主要缺点是,使用的大多数分布都是单变量,用标准分布拟合数据是昂贵的,并且可能不会产生令人满意的结果。第二类是基于空间深度方法。将每个数据对象表示为空间中的一个点,并为其指定深度。关于离群值检测,离群值更可能是深度较小的数据对象,基于深度的方法效率低下,这是因为基于深度的方法依赖凸包的计算,复杂度增加。
在航天嵌入式软件缺陷预测工程实践中,由于工程实践测试集在度量元基本圈复杂度、LCSAJ数目、非重复操作符个数、深度优先调用层次、非循环路径数目等方面存在离群点,导致常规的贝叶斯类分类器、规则分类器、树分类器、元分类器、神经网络分类器等机器学习分类器预测效果不佳。
因此,更好的解决航天嵌入式软件缺陷预测工程实践测试集数据分布离群点的问题,提高软件缺陷预测的准确性,成为同行从业人员亟待解决的问题。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供了一种基于航天软件缺陷数据分布离群点的缺陷预测方法及装置。
为了解决上述技术问题,本发明实施例提供了一种基于航天软件缺陷数据分布离群点的缺陷预测方法,包括:
根据存在离群点现象的样本数据,构建航天嵌入式软件缺陷数据对应的离群点训练集和离群点测试集;
根据所述离群点训练集,训练得到第一数量的软件缺陷预测模型;
根据所述离群点测试集,对所述软件缺陷预测模型进行测试验证,并按照评价指标对所述软件缺陷预测模型进行排序,得到排序预测模型;
基于遗传算法构建自动化搜索优化算法,并结合所述排序预测模型在元分类器基础上逐层递归,查找可被替换的模型节点;
根据不同的评价指标和所述模型节点,优化得到目标模型结构,并获取航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
可选地,所述根据存在离群点现象的样本数据,构建航天嵌入式软件缺陷数据对应的离群点训练集和离群点测试集,包括:
对航天嵌入式软件的缺陷数据测试集度量元的数据进行探索性分析,得到数据分析结果;
根据所述数据分析结果,构建得到所述离群点训练集和所述离群点测试集。
可选地,所述根据所述数据分析结果,构建得到所述离群点训练集和所述离群点测试集,包括:
根据所述数据分析结果,确定缺陷数据测试集和缺陷数据训练集在基本圈复杂度、LCSAJ数目、非重复操作符个数、深度优先调用层次和非循环路径数目的方面是否存在离群点;
在存在离群点的情况下,根据所述缺陷数据测试集和所述缺陷数据训练,构建得到航天嵌入式软件缺陷数据离群点训练集和离群点测试集。
可选地,所述根据所述缺陷数据测试集和所述缺陷数据训练,构建得到航天嵌入式软件缺陷数据离群点训练集和离群点测试集,包括:
获取缺陷数据测试集的样本中超出训练集度量元的阈值的测试样本,及缺陷数据训练集的样本中超出训练集度量元的平均值的训练样本;
根据所述测试样本构建得到所述离群点测试集,并根据所述训练样本构建得到所述离群点训练集。
可选地,所述基于遗传算法构建自动化搜索优化算法,并结合所述排序预测模型在元分类器基础上逐层递归,查找可被替换的模型节点,包括:
采用遗传算法框架构建自动化搜索优化算法,对当前层结构进行编码,生成种群;
基于交叉验证的方式计算离群点测试集的待优化指标,若达到遗传代数,则返回最优结构,否则遗传、变异后继续优化;
若未达到递归层数,并结合所述排序预测模型在元分类器基础上逐层递归,使用遗传算法查找可被替换的模型节点。
可选地,所述根据不同的评价指标和所述模型节点,优化得到目标模型结构,并获取航天嵌入式软件缺陷数据分布离群点的缺陷预测方法,包括:
配置不同的评价指标,及不同的模型深度;
根据配置的评价指标和所述模型深度,获取最优的航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
为了解决上述技术问题,本发明实施例还提供了一种基于航天软件缺陷数据分布离群点的缺陷预测装置,包括:
离群数据集构建模块,用于根据存在离群点现象的样本数据,构建航天嵌入式软件缺陷数据对应的离群点训练集和离群点测试集;
缺陷预测模型训练模块,用于根据所述离群点训练集,训练得到第一数量的软件缺陷预测模型;
排序预测模型获取模块,用于根据所述离群点测试集,对所述软件缺陷预测模型进行测试验证,并按照评价指标对所述软件缺陷预测模型进行排序,得到排序预测模型;
替换模型节点查找模块,用于基于遗传算法构建自动化搜索优化算法,并结合所述排序预测模型在元分类器基础上逐层递归,查找可被替换的模型节点;
缺陷预测方法获取模块,用于根据不同的评价指标和所述模型节点,优化得到目标模型结构,并获取航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
可选地,所述离群数据集构建模块包括:
数据分析结果获取单元,用于对航天嵌入式软件的缺陷数据测试集度量元的数据进行探索性分析,得到数据分析结果;
离群数据集构建单元,用于根据所述数据分析结果,构建得到所述离群点训练集和所述离群点测试集。
可选地,所述离群数据集构建单元包括:
离群点确定子单元,用于根据所述数据分析结果,确定缺陷数据测试集和缺陷数据训练集在基本圈复杂度、LCSAJ数目、非重复操作符个数、深度优先调用层次和非循环路径数目的方面是否存在离群点;
离群数据集构建子单元,用于在存在离群点的情况下,根据所述缺陷数据测试集和所述缺陷数据训练,构建得到航天嵌入式软件缺陷数据离群点训练集和离群点测试集。
可选地,所述离群数据集构建子单元包括:
训练样本获取子单元,用于获取缺陷数据测试集的样本中超出训练集度量元的阈值的测试样本,及缺陷数据训练集的样本中超出训练集度量元的平均值的训练样本;
离群集构建子单元,用于根据所述测试样本构建得到所述离群点测试集,并根据所述训练样本构建得到所述离群点训练集。
可选地,所述替换模型节点查找模块包括:
种群生成单元,用于采用遗传算法框架构建自动化搜索优化算法,对当前层结构进行编码,生成种群;
最优结果返回单元,用于基于交叉验证的方式计算离群点测试集的待优化指标,若达到遗传代数,则返回最优结构,否则遗传、变异后继续优化;
模型节点查找单元,用于若未达到递归层数,并结合所述排序预测模型在元分类器基础上逐层递归,使用遗传算法查找可被替换的模型节点。
可选地,所述缺陷预测方法获取模块包括:
评价指标配置单元,用于配置不同的评价指标,及不同的模型深度;
缺陷预测方法获取单元,用于根据配置的评价指标和所述模型深度,获取最优的航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
本发明与现有技术相比的优点在于:
本发明通过自动化机器学习模型融合,遗传算法自动化搜索优化,可以减少特征分析、模型选择、调参、评估等步骤的时间。在不同的评价指标方面,优化不同最佳的模型结构,揭示了航天嵌入式软件缺陷数据离群点训练集与离群点测试集的分布规律。此方法为航天软件缺陷预测辅助代码审查测试提供了原型,提高第三方软件测评效率,在工程实践应用方面具有重要的意义。
附图说明
图1为本发明实施例提供的一种基于航天软件缺陷数据分布离群点的缺陷预测方法的步骤流程图;
图2为本发明实施例提供的一种基于航天软件缺陷数据分布离群点的缺陷预测装置的结构示意图。
具体实施方式
本发明实施例的技术构思在于:从自动化机器学习的领域,通过遗传算法构建自动化搜索优化(配置随机种子、遗传代数、种群规模、变异率),根据不同的评价指标,优化不同最佳的模型结构,获取最合适的航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
实施例一
参照图1,示出了本发明实施例提供的一种基于航天软件缺陷数据分布离群点的缺陷预测方法的步骤流程图,如图1所示,该基于航天软件缺陷数据分布离群点的缺陷预测方法具体可以包括如下步骤:
步骤101:根据存在离群点现象的样本数据,构建航天嵌入式软件缺陷数据对应的离群点训练集和离群点测试集。
在本发明实施例中,在需要为航天软件缺陷预测辅助代码审查测试提供原型时,首先可以根据存在离群点现象的样本数据,构建航天嵌入式软件缺陷数据对应的离群点训练集和离群点测试集,其中,离群点训练集可以应用于模型的训练过程,而离群点测试集可以应用于模型的测试过程。
对于构建离群点训练集和离群点测试集的过程可以结合下述具体实现方式进行详细描述。
在本发明的一种具体实现方式中,上述步骤101可以包括:
子步骤A1:对航天嵌入式软件的缺陷数据测试集度量元的数据进行探索性分析,得到数据分析结果。
子步骤A2:根据所述数据分析结果,构建得到所述离群点训练集和所述离群点测试集。
在本发明实施例中,可以对航天嵌入式软件的缺陷数据测试集度量元的数据进行探索性分析,得到数据分析结果,并结合分析结果构建得到离群点训练集和离群点测试集,具体地,可以根据数据分析结果,确定缺陷数据测试集和缺陷数据训练集在基本圈复杂度、LCSAJ数目、非重复操作符个数、深度优先调用层次和非循环路径数目的方面是否存在离群点,在存在离群点的情况下,根据所述缺陷数据测试集和所述缺陷数据训练,构建得到航天嵌入式软件缺陷数据离群点训练集和离群点测试集。具体地构建过程可以为:
S11、航天嵌入式软件缺陷数据测试集度量元的数据探索性分析包括数据总览、判断数据缺失和异常、了解度量元的分布、数字特征分析、类型特征分析、生成数据分析报告。
S12、航天嵌入式软件缺陷数据测试集的样本数据,若超出训练集度量元的阈值,则认为这样的测试集样本为离群点样本,构建离群点测试集。
S13、航天嵌入式软件缺陷数据训练集的样本数据,若超出训练集度量元的平均值,构建离群点训练集。
在构建得到离群点测试集和离群点训练集之后,执行步骤102和步骤103。
步骤102:根据所述离群点训练集,训练得到第一数量的软件缺陷预测模型。
在构建得到离群点训练集之后,可以利用离群点训练集对模型进行训练,可以得到第一数量的软件缺陷预测模型,在本示例中,软件缺陷预测模型的数量(即第一数量)可以为50个,在获取离群点训练集之后,可以采用离群点训练集对50个模型分别进行训练,以得到50个训练完成的软件缺陷预测模型。
在根据离群点训练集训练得到第一数量的软件缺陷预测模型之后,执行步骤103。
步骤103:根据所述离群点测试集,对所述软件缺陷预测模型进行测试验证,并按照评价指标对所述软件缺陷预测模型进行排序,得到排序预测模型。
在获取到软件缺陷预测模型之后,可以根据离群点测试集对软件缺陷预测模型进行测试验证,以得到每个软件缺陷预测模型对应的评价指标,并按照评价指标对软件缺陷预测模型进行排序,得到排序预测模型,在本实施例中,可以采用降序的方式对软件缺陷预测模型进行排序,也可以采用升序的方式对软件缺陷预测模型进行排序,具体地,可以根据业务需求而定,本实施例对此不加以限制。
在按照评价指标对软件缺陷预测模型进行排序得到排序预测模型之后,执行步骤104。
步骤104:基于遗传算法构建自动化搜索优化算法,并结合所述排序预测模型在元分类器基础上逐层递归,查找可被替换的模型节点。
在本实施例中,在得到排序预测模型之后,可以基于遗传算法构建自动化搜索优化算法,并结合排序预测模型在元分类器基础上逐层递归,查找可被替换的模型节点,具体地,可以结合下述具体实现方式进行详细描述。
在本发明的另一种具体实现方式中,上述步骤104可以包括:
子步骤B1:采用遗传算法框架构建自动化搜索优化算法,对当前层结构进行编码,生成种群;
子步骤B2:基于交叉验证的方式计算离群点测试集的待优化指标,若达到遗传代数,则返回最优结构,否则遗传、变异后继续优化;
子步骤B3:若未达到递归层数,并结合所述排序预测模型在元分类器基础上逐层递归,使用遗传算法查找可被替换的模型节点。
在本发明实施例中,可以使用遗传算法框架构建自动化搜索优化,对当前层结构进行编码,生成种群,交叉验证计算离群点测试集的待优化指标,若达到遗传代数,则返回最优结构,否则遗传、变异后继续优化。若未达到递归层数,在元分类器基础上逐层递归,使用遗传算法查找可被替换的模型节点。
在基于遗传算法构建自动化搜索优化算法,并结合排序预测模型在元分类器基础上逐层递归,查找到可被替换的模型节点之后,执行步骤105。
步骤105:根据不同的评价指标和所述模型节点,优化得到目标模型结构,并获取航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
在查找到可被替换的模型节点之后,可以根据不同的评价指标和所述模型节点,优化得到目标模型结构,并获取航天嵌入式软件缺陷数据分布离群点的缺陷预测方法,具体地,可以结合下述具体实现方式进行详细描述。
在本发明的另一种具体实现方式中,上述步骤105可以包括:
子步骤C1:配置不同的评价指标,及不同的模型深度;
子步骤C2:根据配置的评价指标和所述模型深度,获取最优的航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
在本发明实施例中,可以配置不同的评价指标Percision、Recall、F-Measure、MCC、ROC、PRC,配置优化不同最佳的模型深度,获取最合适的航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
其中,遗传算法配置包括随机种子、遗传代数、种群规模、变异率。
自动化机器学习软件缺陷预测原型配置包括预测类型的选择、离群点数据集的选择。
评价指标配置包括Percision、Recall、F-Measure、MCC、ROC、PRC六个评价指标。
在一个实施例中,遗传算法配置包括随机种子设置为2020、遗传代数设置为20、种群规模设置为30、变异率设置为0.05。
自动化机器学习软件缺陷预测原型配置预测类型的选择包括分类和回归,数据集的选择包括基本圈复杂度、LCSAJ数目、非重复操作符个数、深度优先调用层次、非循环路径数目离群点的数据集。
评价指标配置包括Percision、Recall、F-Measure、MCC、ROC、PRC六个评价指标,其中Percision精确率是指被正确预测的正例数与所有被预测为正例数的比率,反映了预测模型的准确程度,也称查准率。Recall召回率是指被正确预测位正例数与实际正例数的比率,反映了一个有缺陷模块被正确预测出的概率,也称查全率。F-Measure是信息检索领域的一个评价指标,常用的是F1度量,即精确率与召回率的调和平均数。MCC是常用于不平衡数据集识别结果的综合评价,其计算最为复杂,包含了混淆矩阵中的所有元素,值分布在-1到1之间,分类器将所有的样本均分类正确时得到最大值1。ROC接受者操作特征曲线是描述分类模型真正例率和假正例率之间关系的一种图形化方法,曲线下方的面积即为AUC的值。AUC的取值范围为0-1,AUC值越大,说明模型的性能越好。
本发明实施例通过在不同的评价指标方面,优化不同最佳的模型结构,揭示了航天嵌入式软件缺陷数据离群点训练集与离群点测试集的分布规律。此方法为航天软件缺陷预测辅助代码审查测试提供了原型,提高第三方软件测评效率。
实施例二
参照图2,示出了本发明实施例提供的一种基于航天软件缺陷数据分布离群点的缺陷预测装置的步骤流程图,如图2所示,该基于航天软件缺陷数据分布离群点的缺陷预测装置具体可以包括如下模块:
离群数据集构建模块210,用于根据存在离群点现象的样本数据,构建航天嵌入式软件缺陷数据对应的离群点训练集和离群点测试集;
缺陷预测模型训练模块220,用于根据所述离群点训练集,训练得到第一数量的软件缺陷预测模型;
排序预测模型获取模块230,用于根据所述离群点测试集,对所述软件缺陷预测模型进行测试验证,并按照评价指标对所述软件缺陷预测模型进行排序,得到排序预测模型;
替换模型节点查找模块240,用于基于遗传算法构建自动化搜索优化算法,并结合所述排序预测模型在元分类器基础上逐层递归,查找可被替换的模型节点;
缺陷预测方法获取模块250,用于根据不同的评价指标和所述模型节点,优化得到目标模型结构,并获取航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
可选地,所述离群数据集构建模块210包括:
数据分析结果获取单元,用于对航天嵌入式软件的缺陷数据测试集度量元的数据进行探索性分析,得到数据分析结果;
离群数据集构建单元,用于根据所述数据分析结果,构建得到所述离群点训练集和所述离群点测试集。
可选地,所述离群数据集构建单元包括:
离群点确定子单元,用于根据所述数据分析结果,确定缺陷数据测试集和缺陷数据训练集在基本圈复杂度、LCSAJ数目、非重复操作符个数、深度优先调用层次和非循环路径数目的方面是否存在离群点;
离群数据集构建子单元,用于在存在离群点的情况下,根据所述缺陷数据测试集和所述缺陷数据训练,构建得到航天嵌入式软件缺陷数据离群点训练集和离群点测试集。
可选地,所述离群数据集构建子单元包括:
训练样本获取子单元,用于获取缺陷数据测试集的样本中超出训练集度量元的阈值的测试样本,及缺陷数据训练集的样本中超出训练集度量元的平均值的训练样本;
离群集构建子单元,用于根据所述测试样本构建得到所述离群点测试集,并根据所述训练样本构建得到所述离群点训练集。
可选地,所述替换模型节点查找模块240包括:
种群生成单元,用于采用遗传算法框架构建自动化搜索优化算法,对当前层结构进行编码,生成种群;
最优结果返回单元,用于基于交叉验证的方式计算离群点测试集的待优化指标,若达到遗传代数,则返回最优结构,否则遗传、变异后继续优化;
模型节点查找单元,用于若未达到递归层数,并结合所述排序预测模型在元分类器基础上逐层递归,使用遗传算法查找可被替换的模型节点。
可选地,所述缺陷预测方法获取模块250包括:
评价指标配置单元,用于配置不同的评价指标,及不同的模型深度;
缺陷预测方法获取单元,用于根据配置的评价指标和所述模型深度,获取最优的航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
以上实施例对本发明进行了详细说明,本发明专利说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。对本发明的技术方法进行修改或者等同替换,都不脱离本发明技术方法的核心思想和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (12)

1.一种基于航天软件缺陷数据分布离群点的缺陷预测方法,其特征在于,包括:
根据存在离群点现象的样本数据,构建航天嵌入式软件缺陷数据对应的离群点训练集和离群点测试集;
根据所述离群点训练集,训练得到第一数量的软件缺陷预测模型;
根据所述离群点测试集,对所述软件缺陷预测模型进行测试验证,并按照评价指标对所述软件缺陷预测模型进行排序,得到排序预测模型;
基于遗传算法构建自动化搜索优化算法,并结合所述排序预测模型在元分类器基础上逐层递归,查找可被替换的模型节点;
根据不同的评价指标和所述模型节点,优化得到目标模型结构,并获取航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
2.根据权利要求1所述的方法,其特征在于,所述根据存在离群点现象的样本数据,构建航天嵌入式软件缺陷数据对应的离群点训练集和离群点测试集,包括:
对航天嵌入式软件的缺陷数据测试集度量元的数据进行探索性分析,得到数据分析结果;
根据所述数据分析结果,构建得到所述离群点训练集和所述离群点测试集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据分析结果,构建得到所述离群点训练集和所述离群点测试集,包括:
根据所述数据分析结果,确定缺陷数据测试集和缺陷数据训练集在基本圈复杂度、LCSAJ数目、非重复操作符个数、深度优先调用层次和非循环路径数目的方面是否存在离群点;
在存在离群点的情况下,根据所述缺陷数据测试集和所述缺陷数据训练,构建得到航天嵌入式软件缺陷数据离群点训练集和离群点测试集。
4.根据权利要求3所述的方法,其特征在于,所述根据所述缺陷数据测试集和所述缺陷数据训练,构建得到航天嵌入式软件缺陷数据离群点训练集和离群点测试集,包括:
获取缺陷数据测试集的样本中超出训练集度量元的阈值的测试样本,及缺陷数据训练集的样本中超出训练集度量元的平均值的训练样本;
根据所述测试样本构建得到所述离群点测试集,并根据所述训练样本构建得到所述离群点训练集。
5.根据权利要求1所述的方法,其特征在于,所述基于遗传算法构建自动化搜索优化算法,并结合所述排序预测模型在元分类器基础上逐层递归,查找可被替换的模型节点,包括:
采用遗传算法框架构建自动化搜索优化算法,对当前层结构进行编码,生成种群;
基于交叉验证的方式计算离群点测试集的待优化指标,若达到遗传代数,则返回最优结构,否则遗传、变异后继续优化;
若未达到递归层数,并结合所述排序预测模型在元分类器基础上逐层递归,使用遗传算法查找可被替换的模型节点。
6.根据权利要求1所述的方法,其特征在于,所述根据不同的评价指标和所述模型节点,优化得到目标模型结构,并获取航天嵌入式软件缺陷数据分布离群点的缺陷预测方法,包括:
配置不同的评价指标,及不同的模型深度;
根据配置的评价指标和所述模型深度,获取最优的航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
7.一种基于航天软件缺陷数据分布离群点的缺陷预测装置,其特征在于,包括:
离群数据集构建模块,用于根据存在离群点现象的样本数据,构建航天嵌入式软件缺陷数据对应的离群点训练集和离群点测试集;
缺陷预测模型训练模块,用于根据所述离群点训练集,训练得到第一数量的软件缺陷预测模型;
排序预测模型获取模块,用于根据所述离群点测试集,对所述软件缺陷预测模型进行测试验证,并按照评价指标对所述软件缺陷预测模型进行排序,得到排序预测模型;
替换模型节点查找模块,用于基于遗传算法构建自动化搜索优化算法,并结合所述排序预测模型在元分类器基础上逐层递归,查找可被替换的模型节点;
缺陷预测方法获取模块,用于根据不同的评价指标和所述模型节点,优化得到目标模型结构,并获取航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
8.根据权利要求7所述的装置,其特征在于,所述离群数据集构建模块包括:
数据分析结果获取单元,用于对航天嵌入式软件的缺陷数据测试集度量元的数据进行探索性分析,得到数据分析结果;
离群数据集构建单元,用于根据所述数据分析结果,构建得到所述离群点训练集和所述离群点测试集。
9.根据权利要求8所述的装置,其特征在于,所述离群数据集构建单元包括:
离群点确定子单元,用于根据所述数据分析结果,确定缺陷数据测试集和缺陷数据训练集在基本圈复杂度、LCSAJ数目、非重复操作符个数、深度优先调用层次和非循环路径数目的方面是否存在离群点;
离群数据集构建子单元,用于在存在离群点的情况下,根据所述缺陷数据测试集和所述缺陷数据训练,构建得到航天嵌入式软件缺陷数据离群点训练集和离群点测试集。
10.根据权利要求9所述的装置,其特征在于,所述离群数据集构建子单元包括:
训练样本获取子单元,用于获取缺陷数据测试集的样本中超出训练集度量元的阈值的测试样本,及缺陷数据训练集的样本中超出训练集度量元的平均值的训练样本;
离群集构建子单元,用于根据所述测试样本构建得到所述离群点测试集,并根据所述训练样本构建得到所述离群点训练集。
11.根据权利要求7所述的装置,其特征在于,所述替换模型节点查找模块包括:
种群生成单元,用于采用遗传算法框架构建自动化搜索优化算法,对当前层结构进行编码,生成种群;
最优结果返回单元,用于基于交叉验证的方式计算离群点测试集的待优化指标,若达到遗传代数,则返回最优结构,否则遗传、变异后继续优化;
模型节点查找单元,用于若未达到递归层数,并结合所述排序预测模型在元分类器基础上逐层递归,使用遗传算法查找可被替换的模型节点。
12.根据权利要求7所述的装置,其特征在于,所述缺陷预测方法获取模块包括:
评价指标配置单元,用于配置不同的评价指标,及不同的模型深度;
缺陷预测方法获取单元,用于根据配置的评价指标和所述模型深度,获取最优的航天嵌入式软件缺陷数据分布离群点的缺陷预测方法。
CN202011311120.5A 2020-11-20 2020-11-20 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置 Active CN112257963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011311120.5A CN112257963B (zh) 2020-11-20 2020-11-20 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011311120.5A CN112257963B (zh) 2020-11-20 2020-11-20 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置

Publications (2)

Publication Number Publication Date
CN112257963A true CN112257963A (zh) 2021-01-22
CN112257963B CN112257963B (zh) 2023-08-29

Family

ID=74225407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011311120.5A Active CN112257963B (zh) 2020-11-20 2020-11-20 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置

Country Status (1)

Country Link
CN (1) CN112257963B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920428A (zh) * 2021-09-23 2022-01-11 国网河北省电力有限公司营销服务中心 计量现场作业终端的测试方法、装置及测试终端
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11334645B2 (en) 2011-08-19 2022-05-17 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11550874B2 (en) 2014-04-11 2023-01-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140229164A1 (en) * 2011-02-23 2014-08-14 New York University Apparatus, method and computer-accessible medium for explaining classifications of documents
CN104461896A (zh) * 2014-12-18 2015-03-25 北京轩宇信息技术有限公司 基于可信属性的航天系统关键软件评价方法
CN105653450A (zh) * 2015-12-28 2016-06-08 中国石油大学(华东) 基于改进遗传算法与Adaboost结合的软件缺陷数据特征选择方法
CN109947652A (zh) * 2019-03-26 2019-06-28 中山大学 一种软件缺陷预测的改进排序学习方法
CN109977028A (zh) * 2019-04-08 2019-07-05 燕山大学 一种基于遗传算法和随机森林的软件缺陷预测方法
US20190318471A1 (en) * 2018-04-13 2019-10-17 Taiwan Semiconductor Manufacturing Co., Ltd. Hot spot defect detecting method and hot spot defect detecting system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140229164A1 (en) * 2011-02-23 2014-08-14 New York University Apparatus, method and computer-accessible medium for explaining classifications of documents
CN104461896A (zh) * 2014-12-18 2015-03-25 北京轩宇信息技术有限公司 基于可信属性的航天系统关键软件评价方法
CN105653450A (zh) * 2015-12-28 2016-06-08 中国石油大学(华东) 基于改进遗传算法与Adaboost结合的软件缺陷数据特征选择方法
US20190318471A1 (en) * 2018-04-13 2019-10-17 Taiwan Semiconductor Manufacturing Co., Ltd. Hot spot defect detecting method and hot spot defect detecting system
CN109947652A (zh) * 2019-03-26 2019-06-28 中山大学 一种软件缺陷预测的改进排序学习方法
CN109977028A (zh) * 2019-04-08 2019-07-05 燕山大学 一种基于遗传算法和随机森林的软件缺陷预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何吉元, 等: "一种半监督集成跨项目软件缺陷预测方法", 软件学报, vol. 28, no. 06, pages 1455 - 1473 *
刘旸: "基于机器学习的软件缺陷预测研究", 计算机工程与应用, no. 28, pages 49 - 53 *
高猛, 等: "航天器软件典型缺陷模式的自动检测技术", 空间控制技术与应用, vol. 45, no. 05, pages 72 - 78 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11334645B2 (en) 2011-08-19 2022-05-17 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11868425B2 (en) 2011-08-19 2024-01-09 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11550874B2 (en) 2014-04-11 2023-01-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11803612B2 (en) 2018-09-28 2023-10-31 Hartford Steam Boiler Inspection And Insurance Company Systems and methods of dynamic outlier bias reduction in facility operating data
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
CN113920428A (zh) * 2021-09-23 2022-01-11 国网河北省电力有限公司营销服务中心 计量现场作业终端的测试方法、装置及测试终端

Also Published As

Publication number Publication date
CN112257963B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN112257963B (zh) 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置
CN108345544B (zh) 一种基于复杂网络的软件缺陷分布影响因素分析方法
JP2020500420A (ja) マシンラーニング基盤の半導体製造の収率予測システム及び方法
CN116450399B (zh) 微服务系统故障诊断及根因定位方法
CN112756759B (zh) 点焊机器人工作站故障判定方法
CN108491991B (zh) 基于工业大数据产品工期的约束条件分析系统与方法
CN115511398B (zh) 一种基于时间敏感网络的焊接质量智能检测方法及系统
CN116737510B (zh) 一种基于数据分析的键盘智能监测方法及系统
CN109240276B (zh) 基于故障敏感主元选择的多块pca故障监测方法
TW201717057A (zh) 製程異因分析方法與製程異因分析系統
CN115204536A (zh) 楼宇设备故障预测方法、装置、设备及存储介质
CN115184193A (zh) 线缆的自动化测试方法、装置、设备及存储介质
CN118211882B (zh) 一种基于大数据的产品质量管理系统及方法
CN118010953B (zh) 用于金属结构制造的智能测试方法及系统
CN114139589A (zh) 故障诊断方法、装置、设备与计算机可读存储介质
CN116932384A (zh) 一种基于特征融合和特征选择的软件缺陷预测方法
CN117056834A (zh) 基于决策树的大数据分析方法
CN114611372A (zh) 一种基于物联网边缘计算的工业设备健康预测方法
CN115329663A (zh) 处理电力负荷监测稀疏数据的关键特征选择方法和装置
CN113642209B (zh) 基于数字孪生的结构植入故障响应数据获取及评判方法
CN112380132B (zh) 基于航天软件缺陷数据集类不平衡的对抗验证方法及装置
CN117251788A (zh) 状态评估方法、装置、终端设备及存储介质
CN115829392A (zh) 不良工站检测方法、装置、设备及存储介质
CN117076454B (zh) 一种工程质量验收表单数据结构化存储方法及系统
CN118051743B (zh) 一种航空发动机气路故障诊断方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant