CN112465245A

CN112465245A - 一种针对不平衡数据集的产品质量预测方法

Info

Publication number: CN112465245A
Application number: CN202011409124.7A
Authority: CN
Inventors: 刘兴惠; 李敏波; 李至立; 李媛; 却立勇
Original assignee: Shandong Vhengdata Technology Co ltd; Qingdao Research Institute Of Fudan University
Current assignee: Shandong Vhengdata Technology Co ltd; Qingdao Research Institute Of Fudan University
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-09

Abstract

本发明提供了一种针对不平衡数据集的产品质量预测系统；包括：原数据集模块、数据预处理模块、业务特征构建模块、数据集划分模块、基于MCDC‑MF‑SMOTE的数据平衡模块、基于特征重要性排序的维度缩减模块、Stacking模型集成模块、模型性能评估模块与反馈调整模块。本发明针对产品抽检质量预测问题，进一步提出了基于Stacking集成的LXSMS质量预测方法，首先利用MCDC‑MF‑SMOTE方法生成平衡数据集，接着利用随机森林进行特征重要性排序来降低特征维度，最后将LightGBM、XGBoost、SVM和MNB模型进行Stacking集成。经过实验，该方法具有更高的稳定性和产品质量预测性能，相比随机抽检，不合格产品检出率提高了约286％。

Description

一种针对不平衡数据集的产品质量预测方法

技术领域

本发明属于测试方法领域；尤其涉及一种针对不平衡数据集的产品质量预测方法。

背景技术

常见的产品质量预测研究往往局限于质量预警和预测性维护等方面，这些研究难以应用于实际的工业场景中。如图1为工业产品生产流程，企业会综合产品特性与检验成本等因素选择“全检”或“抽检”两种检验策略。常用的方案是企业在轮胎生产均匀性检验阶段采取20％的比例随机抽检，由于随机抽检的盲目性，其会造成过低的不合格产品检出率，增加企业售后及物流成本。针对此种场景，可以采用产品质量预测方法来辅助抽检决策。

现有技术的随机抽检具有盲目性，其会造成过低的不合格产品检出率，增加企业售后及物流成本。

发明内容

本发明的目的是提供了一种针对不平衡数据集的产品质量预测方法。本发明针对现有技术存在的上述不足，以双星轮胎制造数据集为着手点，针对合格与不合格产品数量不平衡问题，提出了基于密度聚类与产品生产业务特征的MCDC-MF-SMOTE过采样方法来平衡数据集，然后针对产品抽检质量预测问题，进一步提出了基于 Stacking集成的LXSMS质量预测方法，该方法具有更高的稳定性和产品质量预测性能，相比随机抽检，不合格产品检出率提高了约286％。本发明可以用来预测均匀性检验阶段的产品质量，辅助其进行均匀性抽检工作，降低不合格轮胎的漏检率。

本发明是通过以下技术方案实现的：

本发明涉及一种针对不平衡数据集的产品质量预测系统，包括：原数据集模块、数据预处理模块、业务特征构建模块、数据集划分模块、基于MCDC-MF-SMOTE的数据平衡模块、基于特征重要性排序的维度缩减模块、Stacking模型集成模块、模型性能评估模块与反馈调整模块；

其中，所述Stacking模型集成模块包括以下四个分类模型：LightGBM、XGBoost、SVM和MNB四个分类模型；四个分类模型均采用五折交叉验证的方法训练并输出预测结果到第二层元分类器；由于LightGBM训练速度极快，且相比逻辑回归模型有着更高的分类性能，所以选择LightGBM作为元分类器，利用第一层得到的预测数据进行训练并得出最终的产品质量预测结果。

优选地，所述基于MCDC-MF-SMOTE的数据平衡模块的工作步骤为：首先需要对原始数据进行预处理；将数据集按照产品质量类别标签进行数据集划分，分割成两个数据集；分别对数据分割的两个数据集进行密度聚类，形成对应的类簇集合；利用制造业务特征和类簇样本分布进行过采样权重计算；最后根据设定的过采样比和类簇权重，在少数类簇中进行数据生成，并对利用多数类簇判断生成的数据是否合理；最终按照分类模型需要，对数据进行重组形成平衡后的数据集。

所述密度聚类的方法可以根据数据的密集分布情况，考察数据间的相似性。相比k-means等方法，其不需要指定类簇数量，能发现任意形状的类簇，且对噪声数据有更高的鲁棒性。

为了分析不同聚类方法的适应性，本发明首先利用scikit-learn的datasets工具包合成六种不同分布的数据集。接着选择k-means、Agglomerative Clustering、Birch、MeanShift、DBSCAN、OPTICS这六种基于不同理论的聚类方法对合成的数据集进行聚类实验。可以看出，k-means、Birch和MeanShift算法会将同样密度分布的类簇给拆分开，如数据集⑥，两个弧形分布数据被错误地截断为不同类簇。Agglomerative Clustering 算法易将数据集④和⑤中不同的类簇识别为同一类簇。OPTICS密度聚类算法会将过多密度较分散的类簇识别为噪声，且经过多次参数调整，效果仍不理想。而同为密度聚类的 DBSCAN算法在每一种数据集下都有最好的分割表现，能有效区分不同形状的类簇，且会引入更少的噪声数据。所以最终选择DBSCAN对制造数据集进行聚类，并在不同类簇中进行少数类数据生成。

产品制造业务特征包含人员、设备、物料和操作等多种制造特征。这些特征在一段时间内常常会保持相似的状态。而产品质量问题往往是由某一环节的偏差造成的，整体来看，低质量产品将会在某一时间段内重复出现。基于此，可以利用滑动窗口的方法，判断一定时间内生产的低质量产品数量是否超过某一阈值。如果超过某一阈值，则表示此滑动窗口内的数据包含更多的表示低质量产品的信息，应该受到更高的关注，在过采样时，可以将此类数据赋予更高的过采样权重。

聚类形成的少数类簇(少数类密度聚类)和多数类簇(多数类密度聚类)分别为C_a＝ {c_a，1，c_a，2，…，c_a，v}和C_b＝{c_b，1，c_b，2，…，c_b，w}，v和w表示类簇数量。N(c_a，v)表示c_a，v类簇的样本数量。D(c_a，v)表示c_a，v类簇空间内所包含的多数类样本数量。S(c_a，v)表示c_a，v类簇含有有效滑动样本的数量，形式上来说，类簇包含有效滑动样本越多，则该类簇将会有更高的数据生成权重。

最终定义的类簇过采样权重如式(1)所示，β₁、β₂、β₃分别表示权重，其默认值默认为1。β₁右邻的公式计算了某一少数类簇样本数量与所有少数类簇样本数量的比值； β₂右邻的公式计算了某一少数类簇样本数量与其包含的多数类样本数量的比值；β₃右邻的公式计算了某一少数类簇有效滑动样本数量与该类簇样本数量的比值。经过进一步化简，最终的权重定义可用式(2)来表示，β₁、β₂、β₃分别表示权重。

本发明所涉及的MCDC-MF-SMOTE(Multi Class Density Cluster-ManufactureFeature-SMOTE)是基于密度聚类与制造业务特征的过采样方法的整体流程。定义 D_original表示原始样本。OR表示过采样率，其是经过数据生成后的少数类样本数量与原始多数类样本数量的比值。jump表示当生成数据无效时所进行的重试次数，防止出现死循环。WDMC表示不同类簇的过采样权重计算过程，D_balanced表示经过该算法处理后的样本。具体算法过程如图4所示，其中重点为步骤(3)：根据少数类簇权重生成数据，根据多数类簇判断生成数据的有效性，当数据无效时，重新生成数据并判断其有效性。

展示了在不同少数类簇与多数类簇分布下的有效数据生成方法。区域(min)表示少数类簇，区域(mai)表示多数类簇，它们共有三种分布方式：(a)非重叠分布、(b) 包围分布、(c)重叠分布。对非重叠分布，从min中随机选择两个样本点，取两点连接线之间随机一点为新生成数据。对包围分布，当生成数据落在maj时，会重新选择两个样本点，并采用迭代折半的方法，在距离样本点更近的位置生成数据。对重叠分布，首先需要将重叠区域设置为“invalid area”，然后判断独立min区域是非重叠分布还是包围分布，并按照相应方法进行数据生成。

优选地，所述预处理包括缺失值处理、错误数据修正和数据标准化等操作，形成相对高质量的适合模型训练的数据集。

优选地，所述两个数据集为：一个包含所有不合格产品样本，另一个包含所有合格产品样本。

优选地，所述对应的类簇集合为：少数类密度聚类和多数类密度聚类。

本发明所提出的基于密度聚类和制造业务特征结合的数据过采样方法，能充分识别数据的复杂分布特征，并利用数据中的业务特征为数据生成过程提供决策支持。

本发明具有以下优点：

(1)本发明以双星轮胎制造数据集为着手点，针对合格与不合格产品数量不平衡问题，提出了基于密度聚类与产品生产业务特征的MCDC-MF-SMOTE过采样方法；首先对少数类(不合格)与多数类(合格)样本分别进行密度聚类，之后利用制造业务特征和类簇样本分布进行过采样权重计算，最后根据设定的过采样比和类簇权重，在少数类簇中进行数据生成，并利用多数类簇剔除无效数据。经过实验，该方法相比Regular-SMOTE 等其他过采样方法，AUCPRC指标提升了5％-49％。

(2)本发明针对产品抽检质量预测问题，进一步提出了基于Stacking集成的LXSMS质量预测方法，首先利用MCDC-MF-SMOTE方法生成平衡数据集，接着利用随机森林进行特征重要性排序来降低特征维度，最后将LightGBM、XGBoost、SVM和MNB模型进行 Stacking集成。经过实验，该方法具有更高的稳定性和产品质量预测性能，相比随机抽检，不合格产品检出率提高了约286％。

附图说明

图1是现有技术的工艺流程图；

图2为本发明所涉及的MCDC-MF-SMOTE过采样方法逻辑架构图；

图3为为本发明所涉及的聚类实验结果图；

图4为本发明所涉及的少数类簇与多数类簇分布图；

图5为本发明针对不平衡数据集的产品质量预测系统框架图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。应当指出的是，以下的实施实例只是对本发明的进一步说明，但本发明的保护范围并不限于以下实施例。

实施例

本实施例涉及一种针对不平衡数据集的产品质量预测系统，如图5所示：包括：原数据集模块、数据预处理模块、业务特征构建模块、数据集划分模块、基于MCDC-MF-SMOTE的数据平衡模块、基于特征重要性排序的维度缩减模块、Stacking模型集成模块、模型性能评估模块与反馈调整模块；

优选地，所述基于MCDC-MF-SMOTE的数据平衡模块的工作步骤为：如图2所示：首先需要对原始数据进行预处理；将数据集按照产品质量类别标签进行数据集划分，分割成两个数据集；分别对数据分割的两个数据集进行密度聚类，形成对应的类簇集合；利用制造业务特征和类簇样本分布进行过采样权重计算；最后根据设定的过采样比和类簇权重，在少数类簇中进行数据生成，并对利用多数类簇判断生成的数据是否合理；最终按照分类模型需要，对数据进行重组形成平衡后的数据集。

为了分析不同聚类方法的适应性，本发明首先利用scikit-learn的datasets工具包合成六种不同分布的数据集。接着选择k-means、Agglomerative Clustering、Birch、MeanShift、DBSCAN、OPTICS这六种基于不同理论的聚类方法对合成的数据集进行聚类实验，结果如图3所示。可以看出，k-means、Birch和MeanShift算法会将同样密度分布的类簇给拆分开，如数据集⑥，两个弧形分布数据被错误地截断为不同类簇。 AgglomerativeClustering算法易将数据集④和⑤中不同的类簇识别为同一类簇。 OPTICS密度聚类算法会将过多密度较分散的类簇识别为噪声，且经过多次参数调整，效果仍不理想。而同为密度聚类的DBSCAN算法在每一种数据集下都有最好的分割表现，能有效区分不同形状的类簇，且会引入更少的噪声数据。所以最终选择DBSCAN对制造数据集进行聚类，并在不同类簇中进行少数类数据生成。

本发明所涉及的MCDC-MF-SMOTE(Multi Class Density Cluster-ManufactureFeature-SMOTE)是基于密度聚类与制造业务特征的过采样方法的整体流程。定义 D_original表示原始样本。OR表示过采样率，其是经过数据生成后的少数类样本数量与原始多数类样本数量的比值。jump表示当生成数据无效时所进行的重试次数，防止出现死循环。WDMC表示不同类簇的过采样权重计算过程，D_balanced表示经过该算法处理后的样本。具体算法过程如表1所示，其中重点为步骤(3)：根据少数类簇权重生成数据，根据多数类簇判断生成数据的有效性，当数据无效时，重新生成数据并判断其有效性。

表1

如图4所示：展示了在不同少数类簇与多数类簇分布下的有效数据生成方法。区域(min)表示少数类簇，区域(maj)表示多数类簇，它们共有三种分布方式：(a)非重叠分布、(b)包围分布、(c)重叠分布。对非重叠分布，从min中随机选择两个样本点，取两点连接线之间随机一点为新生成数据。对包围分布，当生成数据落在maj时，会重新选择两个样本点，并采用迭代折半的方法，在距离样本点更近的位置生成数据。对重叠分布，首先需要将重叠区域设置为“invalid area”，然后判断独立min区域是非重叠分布还是包围分布，并按照相应方法进行数据生成。

本发明所提出的基于密度聚类和制造业务特征结合的数据过采样方法，能充分识别数据的复杂分布特征，并利用数据中的业务特征为数据生成过程提供决策支持。整体方法的逻辑架构图如图2所示。

针对现有技术，本发明具有以下优点：

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质。

Claims

1.一种针对不平衡数据集的产品质量预测系统，其特征在于，包括：原数据集模块、数据预处理模块、业务特征构建模块、数据集划分模块、基于MCDC-MF-SMOTE的数据平衡模块、基于特征重要性排序的维度缩减模块、Stacking模型集成模块、模型性能评估模块与反馈调整模块；

其中，所述Stacking模型集成模块包括以下四个分类模型：LightGBM、XGBoost、SVM和MNB四个分类模型；四个分类模型均采用五折交叉验证的方法训练并输出预测结果到第二层元分类器。

2.如权利要求1所述的针对不平衡数据集的产品质量预测系统，其特征在于，所述基于MCDC-MF-SMOTE的数据平衡模块的工作步骤为：首先需要对原始数据进行预处理；将数据集按照产品质量类别标签进行数据集划分，分割成两个数据集；分别对数据分割的两个数据集进行密度聚类，形成对应的类簇集合；利用制造业务特征和类簇样本分布进行过采样权重计算；最后根据设定的过采样比和类簇权重，在少数类簇中进行数据生成，并对利用多数类簇判断生成的数据是否合理；最终按照分类模型需要，对数据进行重组形成平衡后的数据集。

3.如权利要求2所述的针对不平衡数据集的产品质量预测系统，其特征在于，所述预处理包括缺失值处理、错误数据修正和数据标准化操作，形成相对高质量的适合模型训练的数据集。

4.如权利要求2所述的针对不平衡数据集的产品质量预测系统，其特征在于，所述两个数据集为：一个包含所有不合格产品样本，另一个包含所有合格产品样本。

5.如权利要求2所述的针对不平衡数据集的产品质量预测系统，其特征在于，所述对应的类簇集合为：少数类密度聚类和多数类密度聚类。