CN112465245A - 一种针对不平衡数据集的产品质量预测方法 - Google Patents

一种针对不平衡数据集的产品质量预测方法 Download PDF

Info

Publication number
CN112465245A
CN112465245A CN202011409124.7A CN202011409124A CN112465245A CN 112465245 A CN112465245 A CN 112465245A CN 202011409124 A CN202011409124 A CN 202011409124A CN 112465245 A CN112465245 A CN 112465245A
Authority
CN
China
Prior art keywords
data
module
cluster
product quality
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011409124.7A
Other languages
English (en)
Inventor
刘兴惠
李敏波
李至立
李媛
却立勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Vhengdata Technology Co ltd
Qingdao Research Institute Of Fudan University
Original Assignee
Shandong Vhengdata Technology Co ltd
Qingdao Research Institute Of Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Vhengdata Technology Co ltd, Qingdao Research Institute Of Fudan University filed Critical Shandong Vhengdata Technology Co ltd
Priority to CN202011409124.7A priority Critical patent/CN112465245A/zh
Publication of CN112465245A publication Critical patent/CN112465245A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种针对不平衡数据集的产品质量预测系统;包括:原数据集模块、数据预处理模块、业务特征构建模块、数据集划分模块、基于MCDC‑MF‑SMOTE的数据平衡模块、基于特征重要性排序的维度缩减模块、Stacking模型集成模块、模型性能评估模块与反馈调整模块。本发明针对产品抽检质量预测问题,进一步提出了基于Stacking集成的LXSMS质量预测方法,首先利用MCDC‑MF‑SMOTE方法生成平衡数据集,接着利用随机森林进行特征重要性排序来降低特征维度,最后将LightGBM、XGBoost、SVM和MNB模型进行Stacking集成。经过实验,该方法具有更高的稳定性和产品质量预测性能,相比随机抽检,不合格产品检出率提高了约286%。

Description

一种针对不平衡数据集的产品质量预测方法
技术领域
本发明属于测试方法领域;尤其涉及一种针对不平衡数据集的产品质量预测方法。
背景技术
常见的产品质量预测研究往往局限于质量预警和预测性维护等方面,这些研究难以应用于实际的工业场景中。如图1为工业产品生产流程,企业会综合产品特性 与检验成本等因素选择“全检”或“抽检”两种检验策略。常用的方案是企业在轮 胎生产均匀性检验阶段采取20%的比例随机抽检,由于随机抽检的盲目性,其会造 成过低的不合格产品检出率,增加企业售后及物流成本。针对此种场景,可以采用 产品质量预测方法来辅助抽检决策。
现有技术的随机抽检具有盲目性,其会造成过低的不合格产品检出率,增加企 业售后及物流成本。
发明内容
本发明的目的是提供了一种针对不平衡数据集的产品质量预测方法。本发明针对现有技术存在的上述不足,以双星轮胎制造数据集为着手点,针对合格与不合格产 品数量不平衡问题,提出了基于密度聚类与产品生产业务特征的MCDC-MF-SMOTE过 采样方法来平衡数据集,然后针对产品抽检质量预测问题,进一步提出了基于 Stacking集成的LXSMS质量预测方法,该方法具有更高的稳定性和产品质量预测性 能,相比随机抽检,不合格产品检出率提高了约286%。本发明可以用来预测均匀性 检验阶段的产品质量,辅助其进行均匀性抽检工作,降低不合格轮胎的漏检率。
本发明是通过以下技术方案实现的:
本发明涉及一种针对不平衡数据集的产品质量预测系统,包括:原数据集模块、数据预处理模块、业务特征构建模块、数据集划分模块、基于MCDC-MF-SMOTE的数据平衡 模块、基于特征重要性排序的维度缩减模块、Stacking模型集成模块、模型性能评估模 块与反馈调整模块;
其中,所述Stacking模型集成模块包括以下四个分类模型:LightGBM、XGBoost、SVM和MNB四个分类模型;四个分类模型均采用五折交叉验证的方法训练并输出预测结果到第二层元分类器;由于LightGBM训练速度极快,且相比逻辑回归模型有着更高的分类 性能,所以选择LightGBM作为元分类器,利用第一层得到的预测数据进行训练并得出最 终的产品质量预测结果。
优选地,所述基于MCDC-MF-SMOTE的数据平衡模块的工作步骤为:首先需要对原始数据进行预处理;将数据集按照产品质量类别标签进行数据集划分,分割成两个数据集;分别对数据分割的两个数据集进行密度聚类,形成对应的类簇集合;利用制造业务特征 和类簇样本分布进行过采样权重计算;最后根据设定的过采样比和类簇权重,在少数类 簇中进行数据生成,并对利用多数类簇判断生成的数据是否合理;最终按照分类模型需 要,对数据进行重组形成平衡后的数据集。
所述密度聚类的方法可以根据数据的密集分布情况,考察数据间的相似性。相比k-means等方法,其不需要指定类簇数量,能发现任意形状的类簇,且对噪声数据有更 高的鲁棒性。
为了分析不同聚类方法的适应性,本发明首先利用scikit-learn的datasets工具包 合成六种不同分布的数据集。接着选择k-means、Agglomerative Clustering、Birch、MeanShift、DBSCAN、OPTICS这六种基于不同理论的聚类方法对合成的数据集进行聚类 实验。可以看出,k-means、Birch和MeanShift算法会将同样密度分布的类簇给拆分开, 如数据集⑥,两个弧形分布数据被错误地截断为不同类簇。Agglomerative Clustering 算法易将数据集④和⑤中不同的类簇识别为同一类簇。OPTICS密度聚类算法会将过多密 度较分散的类簇识别为噪声,且经过多次参数调整,效果仍不理想。而同为密度聚类的 DBSCAN算法在每一种数据集下都有最好的分割表现,能有效区分不同形状的类簇,且会 引入更少的噪声数据。所以最终选择DBSCAN对制造数据集进行聚类,并在不同类簇中进 行少数类数据生成。
产品制造业务特征包含人员、设备、物料和操作等多种制造特征。这些特征在一段时间内常常会保持相似的状态。而产品质量问题往往是由某一环节的偏差造成的,整体 来看,低质量产品将会在某一时间段内重复出现。基于此,可以利用滑动窗口的方法, 判断一定时间内生产的低质量产品数量是否超过某一阈值。如果超过某一阈值,则表示 此滑动窗口内的数据包含更多的表示低质量产品的信息,应该受到更高的关注,在过采 样时,可以将此类数据赋予更高的过采样权重。
聚类形成的少数类簇(少数类密度聚类)和多数类簇(多数类密度聚类)分别为Ca= {ca,1,ca,2,…,ca,v}和Cb={cb,1,cb,2,…,cb,w},v和w表示类簇数量。N(ca,v)表示ca,v类簇的样本 数量。D(ca,v)表示ca,v类簇空间内所包含的多数类样本数量。S(ca,v)表示ca,v类簇含有有 效滑动样本的数量,形式上来说,类簇包含有效滑动样本越多,则该类簇将会有更高的 数据生成权重。
最终定义的类簇过采样权重如式(1)所示,β1、β2、β3分别表示权重,其默认值 默认为1。β1右邻的公式计算了某一少数类簇样本数量与所有少数类簇样本数量的比值; β2右邻的公式计算了某一少数类簇样本数量与其包含的多数类样本数量的比值;β3右邻 的公式计算了某一少数类簇有效滑动样本数量与该类簇样本数量的比值。经过进一步化 简,最终的权重定义可用式(2)来表示,β1、β2、β3分别表示权重。
Figure BDA0002816536710000031
Figure BDA0002816536710000032
本发明所涉及的MCDC-MF-SMOTE(Multi Class Density Cluster-ManufactureFeature-SMOTE)是基于密度聚类与制造业务特征的过采样方法的整体流程。定义 Doriginal表示原始样本。OR表示过采样率,其是经过数据生成后的少数类样本数量与原 始多数类样本数量的比值。jump表示当生成数据无效时所进行的重试次数,防止出现 死循环。WDMC表示不同类簇的过采样权重计算过程,Dbalanced表示经过该算法处理后的 样本。具体算法过程如图4所示,其中重点为步骤(3):根据少数类簇权重生成数据, 根据多数类簇判断生成数据的有效性,当数据无效时,重新生成数据并判断其有效性。
展示了在不同少数类簇与多数类簇分布下的有效数据生成方法。区域(min)表示少数类簇,区域(mai)表示多数类簇,它们共有三种分布方式:(a)非重叠分布、(b) 包围分布、(c)重叠分布。对非重叠分布,从min中随机选择两个样本点,取两点连接 线之间随机一点为新生成数据。对包围分布,当生成数据落在maj时,会重新选择两个 样本点,并采用迭代折半的方法,在距离样本点更近的位置生成数据。对重叠分布,首 先需要将重叠区域设置为“invalid area”,然后判断独立min区域是非重叠分布还是 包围分布,并按照相应方法进行数据生成。
优选地,所述预处理包括缺失值处理、错误数据修正和数据标准化等操作,形成相对高质量的适合模型训练的数据集。
优选地,所述两个数据集为:一个包含所有不合格产品样本,另一个包含所有合格产品样本。
优选地,所述对应的类簇集合为:少数类密度聚类和多数类密度聚类。
本发明所提出的基于密度聚类和制造业务特征结合的数据过采样方法,能充分识别数据的复杂分布特征,并利用数据中的业务特征为数据生成过程提供决策支持。
本发明具有以下优点:
(1)本发明以双星轮胎制造数据集为着手点,针对合格与不合格产品数量不平衡问题,提出了基于密度聚类与产品生产业务特征的MCDC-MF-SMOTE过采样方法;首先对 少数类(不合格)与多数类(合格)样本分别进行密度聚类,之后利用制造业务特征和 类簇样本分布进行过采样权重计算,最后根据设定的过采样比和类簇权重,在少数类簇 中进行数据生成,并利用多数类簇剔除无效数据。经过实验,该方法相比Regular-SMOTE 等其他过采样方法,AUCPRC指标提升了5%-49%。
(2)本发明针对产品抽检质量预测问题,进一步提出了基于Stacking集成的LXSMS质量预测方法,首先利用MCDC-MF-SMOTE方法生成平衡数据集,接着利用随机森林进行 特征重要性排序来降低特征维度,最后将LightGBM、XGBoost、SVM和MNB模型进行 Stacking集成。经过实验,该方法具有更高的稳定性和产品质量预测性能,相比随机抽 检,不合格产品检出率提高了约286%。
附图说明
图1是现有技术的工艺流程图;
图2为本发明所涉及的MCDC-MF-SMOTE过采样方法逻辑架构图;
图3为为本发明所涉及的聚类实验结果图;
图4为本发明所涉及的少数类簇与多数类簇分布图;
图5为本发明针对不平衡数据集的产品质量预测系统框架图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。应当指出的是,以下的实施实例只是 对本发明的进一步说明,但本发明的保护范围并不限于以下实施例。
实施例
本实施例涉及一种针对不平衡数据集的产品质量预测系统,如图5所示:包括:原数据集模块、数据预处理模块、业务特征构建模块、数据集划分模块、基于MCDC-MF-SMOTE的数据平衡模块、基于特征重要性排序的维度缩减模块、Stacking模型集成模块、模型 性能评估模块与反馈调整模块;
其中,所述Stacking模型集成模块包括以下四个分类模型:LightGBM、XGBoost、SVM和MNB四个分类模型;四个分类模型均采用五折交叉验证的方法训练并输出预测结果到第二层元分类器;由于LightGBM训练速度极快,且相比逻辑回归模型有着更高的分类 性能,所以选择LightGBM作为元分类器,利用第一层得到的预测数据进行训练并得出最 终的产品质量预测结果。
优选地,所述基于MCDC-MF-SMOTE的数据平衡模块的工作步骤为:如图2所示:首先需要对原始数据进行预处理;将数据集按照产品质量类别标签进行数据集划分,分割成 两个数据集;分别对数据分割的两个数据集进行密度聚类,形成对应的类簇集合;利用 制造业务特征和类簇样本分布进行过采样权重计算;最后根据设定的过采样比和类簇权 重,在少数类簇中进行数据生成,并对利用多数类簇判断生成的数据是否合理;最终按 照分类模型需要,对数据进行重组形成平衡后的数据集。
所述密度聚类的方法可以根据数据的密集分布情况,考察数据间的相似性。相比k-means等方法,其不需要指定类簇数量,能发现任意形状的类簇,且对噪声数据有更 高的鲁棒性。
为了分析不同聚类方法的适应性,本发明首先利用scikit-learn的datasets工具包 合成六种不同分布的数据集。接着选择k-means、Agglomerative Clustering、Birch、MeanShift、DBSCAN、OPTICS这六种基于不同理论的聚类方法对合成的数据集进行聚类 实验,结果如图3所示。可以看出,k-means、Birch和MeanShift算法会将同样密度分布 的类簇给拆分开,如数据集⑥,两个弧形分布数据被错误地截断为不同类簇。 AgglomerativeClustering算法易将数据集④和⑤中不同的类簇识别为同一类簇。 OPTICS密度聚类算法会将过多密度较分散的类簇识别为噪声,且经过多次参数调整,效 果仍不理想。而同为密度聚类的DBSCAN算法在每一种数据集下都有最好的分割表现,能 有效区分不同形状的类簇,且会引入更少的噪声数据。所以最终选择DBSCAN对制造数据 集进行聚类,并在不同类簇中进行少数类数据生成。
产品制造业务特征包含人员、设备、物料和操作等多种制造特征。这些特征在一段时间内常常会保持相似的状态。而产品质量问题往往是由某一环节的偏差造成的,整体 来看,低质量产品将会在某一时间段内重复出现。基于此,可以利用滑动窗口的方法, 判断一定时间内生产的低质量产品数量是否超过某一阈值。如果超过某一阈值,则表示 此滑动窗口内的数据包含更多的表示低质量产品的信息,应该受到更高的关注,在过采 样时,可以将此类数据赋予更高的过采样权重。
聚类形成的少数类簇(少数类密度聚类)和多数类簇(多数类密度聚类)分别为Ca= {ca,1,ca,2,…,ca,v}和Cb={cb,1,cb,2,…,cb,w},v和w表示类簇数量。N(ca,v)表示ca,v类簇的样本 数量。D(ca,v)表示ca,v类簇空间内所包含的多数类样本数量。S(ca,v)表示ca,v类簇含有有 效滑动样本的数量,形式上来说,类簇包含有效滑动样本越多,则该类簇将会有更高的 数据生成权重。
最终定义的类簇过采样权重如式(1)所示,β1、β2、β3分别表示权重,其默认值 默认为1。β1右邻的公式计算了某一少数类簇样本数量与所有少数类簇样本数量的比值; β2右邻的公式计算了某一少数类簇样本数量与其包含的多数类样本数量的比值;β3右邻 的公式计算了某一少数类簇有效滑动样本数量与该类簇样本数量的比值。经过进一步化 简,最终的权重定义可用式(2)来表示,β1、β2、β3分别表示权重。
Figure BDA0002816536710000061
Figure BDA0002816536710000062
本发明所涉及的MCDC-MF-SMOTE(Multi Class Density Cluster-ManufactureFeature-SMOTE)是基于密度聚类与制造业务特征的过采样方法的整体流程。定义 Doriginal表示原始样本。OR表示过采样率,其是经过数据生成后的少数类样本数量与原 始多数类样本数量的比值。jump表示当生成数据无效时所进行的重试次数,防止出现 死循环。WDMC表示不同类簇的过采样权重计算过程,Dbalanced表示经过该算法处理后的 样本。具体算法过程如表1所示,其中重点为步骤(3):根据少数类簇权重生成数据, 根据多数类簇判断生成数据的有效性,当数据无效时,重新生成数据并判断其有效性。
表1
Figure BDA0002816536710000063
Figure BDA0002816536710000071
如图4所示:展示了在不同少数类簇与多数类簇分布下的有效数据生成方法。区域(min)表示少数类簇,区域(maj)表示多数类簇,它们共有三种分布方式:(a)非 重叠分布、(b)包围分布、(c)重叠分布。对非重叠分布,从min中随机选择两个样 本点,取两点连接线之间随机一点为新生成数据。对包围分布,当生成数据落在maj时, 会重新选择两个样本点,并采用迭代折半的方法,在距离样本点更近的位置生成数据。 对重叠分布,首先需要将重叠区域设置为“invalid area”,然后判断独立min区域是 非重叠分布还是包围分布,并按照相应方法进行数据生成。
优选地,所述预处理包括缺失值处理、错误数据修正和数据标准化等操作,形成相对高质量的适合模型训练的数据集。
优选地,所述两个数据集为:一个包含所有不合格产品样本,另一个包含所有合格产品样本。
优选地,所述对应的类簇集合为:少数类密度聚类和多数类密度聚类。
本发明所提出的基于密度聚类和制造业务特征结合的数据过采样方法,能充分识别数据的复杂分布特征,并利用数据中的业务特征为数据生成过程提供决策支持。 整体方法的逻辑架构图如图2所示。
针对现有技术,本发明具有以下优点:
(1)本发明以双星轮胎制造数据集为着手点,针对合格与不合格产品数量不平衡问题,提出了基于密度聚类与产品生产业务特征的MCDC-MF-SMOTE过采样方法;首先对 少数类(不合格)与多数类(合格)样本分别进行密度聚类,之后利用制造业务特征和 类簇样本分布进行过采样权重计算,最后根据设定的过采样比和类簇权重,在少数类簇 中进行数据生成,并利用多数类簇剔除无效数据。经过实验,该方法相比Regular-SMOTE 等其他过采样方法,AUCPRC指标提升了5%-49%。
(2)本发明针对产品抽检质量预测问题,进一步提出了基于Stacking集成的LXSMS质量预测方法,首先利用MCDC-MF-SMOTE方法生成平衡数据集,接着利用随机森林进行 特征重要性排序来降低特征维度,最后将LightGBM、XGBoost、SVM和MNB模型进行 Stacking集成。经过实验,该方法具有更高的稳定性和产品质量预测性能,相比随机抽 检,不合格产品检出率提高了约286%。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上 述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改, 这并不影响本发明的实质。

Claims (5)

1.一种针对不平衡数据集的产品质量预测系统,其特征在于,包括:原数据集模块、数据预处理模块、业务特征构建模块、数据集划分模块、基于MCDC-MF-SMOTE的数据平衡模块、基于特征重要性排序的维度缩减模块、Stacking模型集成模块、模型性能评估模块与反馈调整模块;
其中,所述Stacking模型集成模块包括以下四个分类模型:LightGBM、XGBoost、SVM和MNB四个分类模型;四个分类模型均采用五折交叉验证的方法训练并输出预测结果到第二层元分类器。
2.如权利要求1所述的针对不平衡数据集的产品质量预测系统,其特征在于,所述基于MCDC-MF-SMOTE的数据平衡模块的工作步骤为:首先需要对原始数据进行预处理;将数据集按照产品质量类别标签进行数据集划分,分割成两个数据集;分别对数据分割的两个数据集进行密度聚类,形成对应的类簇集合;利用制造业务特征和类簇样本分布进行过采样权重计算;最后根据设定的过采样比和类簇权重,在少数类簇中进行数据生成,并对利用多数类簇判断生成的数据是否合理;最终按照分类模型需要,对数据进行重组形成平衡后的数据集。
3.如权利要求2所述的针对不平衡数据集的产品质量预测系统,其特征在于,所述预处理包括缺失值处理、错误数据修正和数据标准化操作,形成相对高质量的适合模型训练的数据集。
4.如权利要求2所述的针对不平衡数据集的产品质量预测系统,其特征在于,所述两个数据集为:一个包含所有不合格产品样本,另一个包含所有合格产品样本。
5.如权利要求2所述的针对不平衡数据集的产品质量预测系统,其特征在于,所述对应的类簇集合为:少数类密度聚类和多数类密度聚类。
CN202011409124.7A 2020-12-04 2020-12-04 一种针对不平衡数据集的产品质量预测方法 Pending CN112465245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011409124.7A CN112465245A (zh) 2020-12-04 2020-12-04 一种针对不平衡数据集的产品质量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011409124.7A CN112465245A (zh) 2020-12-04 2020-12-04 一种针对不平衡数据集的产品质量预测方法

Publications (1)

Publication Number Publication Date
CN112465245A true CN112465245A (zh) 2021-03-09

Family

ID=74805827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011409124.7A Pending CN112465245A (zh) 2020-12-04 2020-12-04 一种针对不平衡数据集的产品质量预测方法

Country Status (1)

Country Link
CN (1) CN112465245A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408617A (zh) * 2021-06-18 2021-09-17 湘潭大学 一种基于XGBoost与Stacking模型融合的非侵入式负荷识别方法
CN115965245A (zh) * 2023-03-13 2023-04-14 华东交通大学 一种基于机器学习的山地果园冻害风险预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492673A (zh) * 2018-10-19 2019-03-19 南京理工大学 一种基于谱聚类采样的不平衡数据预测方法
CN109978039A (zh) * 2019-03-19 2019-07-05 南京邮电大学 一种基于不平衡数据集情况的下风机叶片结冰预测方法
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法
CN110991653A (zh) * 2019-12-10 2020-04-10 电子科技大学 一种针对不平衡数据集分类的方法
AU2020100709A4 (en) * 2020-05-05 2020-06-11 Bao, Yuhang Mr A method of prediction model based on random forest algorithm
CN111695639A (zh) * 2020-06-17 2020-09-22 浙江经贸职业技术学院 一种基于机器学习的电力用户用电异常检测方法
CN111695626A (zh) * 2020-06-10 2020-09-22 湖南湖大金科科技发展有限公司 基于混合采样与特征选择的高维度不平衡数据分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492673A (zh) * 2018-10-19 2019-03-19 南京理工大学 一种基于谱聚类采样的不平衡数据预测方法
CN109978039A (zh) * 2019-03-19 2019-07-05 南京邮电大学 一种基于不平衡数据集情况的下风机叶片结冰预测方法
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法
CN110991653A (zh) * 2019-12-10 2020-04-10 电子科技大学 一种针对不平衡数据集分类的方法
AU2020100709A4 (en) * 2020-05-05 2020-06-11 Bao, Yuhang Mr A method of prediction model based on random forest algorithm
CN111695626A (zh) * 2020-06-10 2020-09-22 湖南湖大金科科技发展有限公司 基于混合采样与特征选择的高维度不平衡数据分类方法
CN111695639A (zh) * 2020-06-17 2020-09-22 浙江经贸职业技术学院 一种基于机器学习的电力用户用电异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗丹: "一种基于多维高斯云模型的过采样方法", 《周口师范学院学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408617A (zh) * 2021-06-18 2021-09-17 湘潭大学 一种基于XGBoost与Stacking模型融合的非侵入式负荷识别方法
CN115965245A (zh) * 2023-03-13 2023-04-14 华东交通大学 一种基于机器学习的山地果园冻害风险预测方法

Similar Documents

Publication Publication Date Title
CN111314331B (zh) 一种基于条件变分自编码器的未知网络攻击检测方法
CN112465245A (zh) 一种针对不平衡数据集的产品质量预测方法
CN110991474A (zh) 一种机器学习建模平台
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
WO2022257458A1 (zh) 车险理赔行为识别方法、装置、设备及存储介质
CN111079937A (zh) 一种快速建模的方法
CN111338950A (zh) 一种基于谱聚类的软件缺陷特征选择方法
CN110705685A (zh) 一种神经网络量化分类方法与系统
CN111353607B (zh) 一种量子态判别模型的获得方法、装置
CN113537321A (zh) 一种基于孤立森林和x均值的网络流量异常检测方法
CN112016756A (zh) 数据预测的方法和装置
CN115112372A (zh) 轴承故障诊断方法、装置、电子设备及存储介质
CN113609569A (zh) 一种判别式的广义零样本学习故障诊断方法
CN107194815A (zh) 客户分类方法及系统
CN117033912B (zh) 一种设备故障预测方法、装置、可读存储介质及电子设备
CN110751278A (zh) 一种神经网络比特量化方法和系统
CN108537249A (zh) 一种密度峰值聚类的工业过程数据聚类方法
CN112634022A (zh) 基于不平衡数据处理的信贷风险评估方法与系统
CN117216713A (zh) 故障定界方法、装置、电子设备和存储介质
CN110910021A (zh) 一种基于支持向量机监控在线缺陷的方法
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
CN115563520A (zh) 一种基于kmeans聚类的半监督学习方法及其应用
CN110942087B (zh) 一种基于分离求解的矩阵型图像数据分类方法
CN117114922B (zh) 一种基于全过程工程咨询的咨询服务和评估方法和系统
CN111814836A (zh) 基于类不平衡算法的车辆行驶行为检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210309

RJ01 Rejection of invention patent application after publication