CN109101632A

CN109101632A - 基于制造大数据的产品质量异常数据追溯分析方法

Info

Publication number: CN109101632A
Application number: CN201810925436.XA
Authority: CN
Inventors: 王海鹏; 潘新龙; 李敏波; 郭强; 易泳; 何友
Original assignee: Naval Aeronautical University
Current assignee: Naval Aeronautical University
Priority date: 2018-08-15
Filing date: 2018-08-15
Publication date: 2018-12-28
Anticipated expiration: 2038-08-15
Also published as: CN109101632B

Abstract

本发明公开了一种基于制造大数据的产品质量异常数据追溯分析方法。所述方法包括：步骤1，多源异构质量大数据获取集成；步骤2，质量大数据预处理：从产品质量分析数据集中抽取异常数据，并对其进行数据去重和数据缺失值填补；步骤3，特征抽取：从进行质量大数据预处理后的数据集中，抽取其包含数据的统计指标作为辅助特征，形成产品质量异常数据集；步骤4，质量异常数据追溯分析：首先进行覆盖产品生产全过程的单因素质量分析，找到影响产品质量的主要因素；然后通过涵盖产品生产各个环节的质量特征构建决策树模型，对产品质量异常数据进行追溯分析；步骤5，分布式计算加速：利用Spark内存计算方法加快质量数据追溯分析处理速度。

Description

基于制造大数据的产品质量异常数据追溯分析方法

技术领域

本发明属于工业大数据技术应用领域，具体涉及产品质量异常数据的追溯分析以及多因素关联挖掘方法。

背景技术

大数据时代，数据已经不是社会生产中无价值的“副产物”了；相反，数据已经成为一种可再生、价值巨大的生产资料。海量的数据蕴含了巨大的信息，通过对数据的分析挖掘，不仅可以对现有现象进行描述和解释，还能预测未来。大数据已经深入到生活的方方面面，赋予我们的生活更多的智能性和便利性。

随着信息化融入工业化进程，目前大部分工业行业已经完成了自动化、信息化建设，信息技术渗透到了工业企业产业链的各个环节，包括产品设计、生产监控、产品检测以及产品销售等。传感器技术、条形码技术、RFID技术等新型技术已经在工业行业中得到广泛应用，并且类似于ERP、MES等信息化管理系统也已经成为工业生产管理中不可或缺的一个要素，尤其是移动互联网以及物联网等新一代信息技术在工业领域的应用，标志着工业企业已经进入了“大数据”时代。无论是物联网传感器、还是ERP等信息化管理系统都能在短时间内积累大量的工业数据。相比于互联网大数据，工业大数据虽然在体量上与其相当，但其价值密度却远高于互联网大数据，故而对于工业大数据的重视和研究是相当必要的。这些海量的数据中蕴含着一定的内在规律性，如何挖掘这些内在的规律性，帮助轮胎企业进行质量追溯，发现产品制造过程中的关联环节以及潜在问题，不仅能够精确的定位问题的源头，还能帮助改善工业制作流程，降低产品的不合格率，最终实现企业效益的提升。

本发明充分利用制造企业各个生产环节的多源异构数据，通过针对性的数据预处理策略对原始质量数据进行合理整合，构建便于大规模并行分析的结构化数据集；广泛抽取并精确选择数据特征，选用恰当的分析策略和分析算法，对产品生产过程中所产生的异常数据进行追溯分析，为制造企业提供精准的质量异常数据追溯分析方法，实践证明本发明提供的方法能够基于制造业产品质量大数据实现较精确的质量异常分析。

发明内容

本发明的目的主要在于为企业提供一种针对产品质量异常数据的追溯分析方法，帮助企业追溯不合格产品的质量问题环节和可能的生产影响因素。

本发明提供的基于制造大数据的产品质量异常数据追溯分析方法，具体方法和步骤为：

步骤1，多源异构质量大数据获取集成。

收集并整理多源异构的产品生产质量数据以及产品质量检测数据，形成统一格式的结构化产品质量分析数据集。多源异构质量数据包括存放在MES系统、ERP系统中以关系型表以及文件形式存在的数据。对于这些以非统一格式、散布在不同系统中的数据，需要进行数据融合，最终以统一的格式呈现。具体执行流程参见图1。

其主要流程包括以下几个方面：

(1)识别与产品生产相关的质量数据源及其存储位置。例如，轮胎动平衡检测数据、成品外检数据、均匀性质检数据、X光检验数据，密炼、成型和硫化生产过程监控数据、设备模具、班组与操作人员数据，原材料属性数据等；

(2)利用Sqoop配置关系型数据库与分布式大数据存储系统HDFS之间的数据连接，以增量导入的方式获取所有质量相关数据；

(3)基于MapReduce编程方法解析质量数据文件并将其存储到对象数据库中；

(4)梳理和清理数据，比如重复数据的去除、数据实体的冲突解决等；

(5)基于关系型模型在分布式数据仓库Hive中集成前面获取到的所有质量数据；

(6)建立结构化质量分析数据集。

例如，轮胎生产制造是一个非常复杂的过程，密炼、半部件、成型、硫化等环节中的任何一个因素都可能导致最终的产品存在质量问题，所以严格监控并控制整个制造过程非常关键，而由生产设备监控和轮胎质量检测所产生的数据存放在不同的企业信息系统中，比如密炼转子转速、密炼时间、密炼容积，成型设备、温度和压力，硫化设备、温度、压力等生产过程数据保存在MES系统中，轮胎动平衡检测数据、成品外检、均匀性质检、X光检验数据也存储在MES系统中，物料和原材料信息则保存在ERP系统中。生产过程数据与质量检验数据的复杂多样性导致质量分析数据的获取和整理较为重要。通过配置关系型数据库增量导入策略以及文件解析策略将存储在MES系统和ERP系统中的质量检测数据以及生产过程数据统一转储存放在大数据处理平台中，并基于关系型模式构建结构化质量分析数据集。

步骤2，质量大数据预处理。

从产品质量分析数据集中抽取出异常数据，并对其进行数据去重和数据缺失值填补。

(1)通过产品编码主键将存在关联性的产品生产过程追溯数据集成在一起；

(2)使用列存储技术，在逻辑上构建一个统一格式的、主体集成的数据存储视图；

(3)针对产品质量异常数据存在的重复数据以及部分缺失值，首先采用数据去重策略去除数据集中的重复记录，然后基于KNN算法对数据集中存在的数据缺失值使用最有可能的值进行合理填补。

通过步骤1得到的数据集还不能满足我们要进行的质量异常数据追溯分析，必须在分析之前设计针对性的数据预处理策略，通过从产品生产质量数据集中抽取异常数据，并对其进行必要的数据去重以及缺失值填补，提高分析数据集的质量，便于发现频繁的、有价值的结果。

例如，针对轮胎质量大数据而言，很多存在一定程度关联性的数据属性都是通过一个轮胎编码主键关联起来，为了方便后续的分析，需要进行数据的集成，将存在关联性的轮胎生产过程追溯数据集成在一起，形成完整的分析数据集；由于使用传统的关系型数据库以及SQL来完成数据的集成，受限于其设计思想会使得操作效率极低。为避免执行关系型数据式的“JOIN”操作，选择使用列存储技术，通过列存储技术避免从物理上将所有的相关的属性集成在一起，而只是在逻辑上构建数据之间的关系，物理存储上依旧是按照原始的分割方式存储，但是在处理的时候借助列存储技术以及MapReduce分布式计算框架提升执行效率。从而在逻辑上构建一个统一格式的、主体集成的数据存储视图。

针对轮胎动平衡检测使用三个指标共同标识轮胎的质量情况，为找出质量异常的数据，需要将三个指标综合起来编码，形成简单直观的质量检测结果。然后根据轮胎编码的轮胎动平衡检测结果抽取出存在质量异常的数据，基于轮胎编码将存在质量异常的轮胎的所有相关质量数据整合集成到一起。采用数据去重策略去除数据集中的重复记录，然后基于KNN算法对数据集中存在的数据缺失值使用最有可能的值进行合理填补。

KNN分类基于类比学习。训练样本n维数值属性描述。每个样本代表n维空间的一个点。这样，所有的训练样本都存放在n维模式空间中。给定一个未知样本，k最临近分类法搜索模式空间，找出最接近未知样本的k个训练样本。这k个训练样本是未知样本的k个“近邻”。“临近性”用欧几里德距离定义，当然还可以根据具体的数据特征采用曼哈顿距离或者明可夫斯基距离。其中，两个点X＝(x₁,x₂,…,x_n)和Y＝(y₁,y₂,…,y_n)的欧几里德距离是：未知样本被分配到k个最临近者中最公共的类。当k＝1时，未知样本被指定到模式空间中与之最临近的训练样本的类。

步骤3，特征抽取。

基于行业背景知识和分析经验从进行质量大数据预处理后的数据集中，抽取其包含数据的统计指标作为辅助特征，形成产品质量异常数据集。统计指标包括但不限于平均值、Z得分、方差、标准差、最大值、最小值、极差。特征抽取主要是依据行业背景知识以及分析经验，从原始数据集中构造出符合分析要求的特征集合，提升模型表达准确度、合理性。通常我们得到的属性距离真正能够在模型中使用的特征还有一定的差距，例如，针对轮胎质量异常数据集中所包含的模具内温、模具内压、板温、板压和轮胎成型、硫化等过程中的温度、压力等属性均是一系列时序数据的特征，进一步细化抽取其统计指标作为辅助特征，这些统计指标包括但不限于平均值、Z得分、方差、标准差、最大值、最小值、极差。

步骤4，质量异常数据追溯分析。

基于产品质量异常数据集，首先进行覆盖产品生产全过程的单因素关联分析，找到影响产品质量的主要因素；然后通过涵盖产品生产各个环节的质量特征进行多因素决策树分析，实现对产品质量异常数据的追溯分析。

工业过程中的质量好坏与生产过程中的每一个环节都可能存在相关关系，工业数据高关联性的内在特征也使得质量异常数据追溯与分析变得可行。通过对所获得的完整工业生产过程的环节数据，基于行业背景以及分析经验，利用传统概率统计分析方法以及机器学习算法来构建完整的、针对性的分析模型，找到各个环节输入对最终产品质量的影响关联度；通过关联分析追溯到那些对最终产品质量存在关键性影响的环节数据来回溯产品的生产环节，并为后续的质量改进、生产工艺改进提供数据支持。

质量异常数据追溯分析主要包括：单因素关联分析和多因素决策树分析。首先通过执行与产品生产全过程相关因素的单因素关联分析找到对产品质量影响较大的因素，然后通过涵盖产品生产各个环节的质量特征进行多因素决策树分析，实现对产品质量异常数据的追溯分析；

产品的质量好坏与制造过程中的每一个环节都存在相关关系，工业数据具有高关联性的特征，使得质量追溯变得可行。通过对产品制造过程的各环节数据，利用传统概率统计分析的方法，能够追溯到那些对最终产品质量存在关键性影响的环节数据来回溯产品的生产环节，并为后续的设计生产过程做出必要的指导。

单因素关联分析基于统计学原理通过定量的方式计算轮胎生产过程单一指标(包括加工设备、模具、加工温度和压力、设备监控数据、班次、操作人员)与质量检测结果之间的相关关系，同时基于单一指标不同取值对于质量检测结果的影响进行横向对比，从而定量解释某指标对产品质量的直接影响程度并细粒度呈现该指标各取值对产品质量的贡献率。

例如，针对轮胎质量大数据而言，存在很多表示不同维度质量数据的数据集(如硫化、成型、温度、压力、动平衡等)，为了方便后续的分析，经常需要将数据表格之间进行关联，很多存在一定程度关联性的数据属性都是通过一个主键(如轮胎编码)关联起来的，将这些存在关联性的数据集成在一起，形成可分析的数据集。

在进行单因素关联分析时，首先，将待分析的元素与表示质量情况的数据表通过产品编码进行关联，然后将待分析元素的不合格以及总体数据进行分组，得到每个因素的不合格数、不合格率；有时需要针对某种型号的产品进行单因素分析，此时只要按照产品型号下的编码进行数据表关联即可。

得到这些与单因素相关的不合格数、不合格率等数据之后，可以通过图表的形式进行内容的呈现，以便直观的预测分析出各个因素与产品质量的相关关系，制定出相应的改善方案。

另外，对于一个数据中存在一组记录过程的大量数据(如温度、压力)，则将这个数据分解成为最大值、最小值、平均值和方差等几个数据指标来表示，从而便于后续分析进行。

单因素关联分析的流程为：

(1)将待分析的元素与表示质量情况的数据表通过产品编码进行关联；

(2)将待分析元素的不合格数据以及总体数据进行分组，得到每个因素的不合格数、不合格率；

(3)通过图表的形式将不合格数和不合格率进行内容呈现，以便直观的预测分析出各个因素与产品质量的相关关系，制定出相应的改善方案。

单因素关联分析可以得到一些类似经验的质量异常数据追溯规则，但是很难涵盖整个生产过程，并且由关联规则衍生出来的质量追溯规则在实际质量追溯分析中没有优先等级之分，这从很大程度上限制了其科学有效使用。而通过基于决策树模型的多因素关联分析可以发现类似A->B的规律，其中A代表特征取值集合，B代表产品质量检测结果，并且A∩B为空集。基于决策树模型的多因素关联分析能够通过控制决策树的深度来尽量涵盖产品生产的整个过程，并且由此衍生出来的质量追溯规则本身蕴含着潜在的优先次序。

多因素决策树分析的流程为：

(1)使用K-means算法对产品质量异常数据集中需要进行离散化处理的属性进行聚类，使得划分到同一个区域内的点尽量相似，不同区间内的点差异性尽量大；

(2)根据聚类结果抽取出各个簇的划分边界，以此作为离散化的策略；

(3)通过基于聚类结果抽取出来的离散化策略将所有连续型属性进行离散化；

(4)基于离散化的质量异常数据集，利用决策树算法以及剪枝策略构建多因素决策树模型；

(5)基于建立的决策树模型可以抽取质量异常数据中蕴含的潜在关联规则，在此基础上形成一个统一的、有序的质量异常问题追溯分析系统。

在执行决策树分析之前，为使得分析数据集符合决策树要求的输入数据格式，首先需要对数据集中所有连续型属性进行离散化，使得所有的输入属性均为离散型属性；区间划分策略基于聚类结果给出，使用K-means算法对所有需要进行离散化处理的属性进行聚类，使得划分到同一个区域内的点尽量相似，不同区间内的点差异性尽量大。然后根据聚类结果抽取出各个簇的划分边界，以此作为离散化的策略。从聚类的分类角度来讲，K-means属于划分聚类，其假设聚类结构可以通过一组原型向量来刻画。具体执行步骤如下：

(1)随机选择C个类的初始中心；

(2)每一轮迭代过程中，计算任一样本与C个中心点之间的距离，将该点归入距离最小的那个中心所属的类；

(3)利用均值等方法更新该类的中心值；

(4)对于所有的C个聚类中心，如果利用(2)(3)的迭代更新后，值保持不变，则迭代结束，否则继续迭代。

其伪代码描述如下：

K-means的目标函数设置为：其中x⁽ⁱ⁾为第i个样本的坐标，μ_c ⁽ⁱ⁾为第i个样本所属聚类簇的聚类中心。

通过基于聚类结果抽取出来的离散化策略将所有连续型属性离散化之后，数据集已经符合多因素决策树分析的输入规范。

决策树是一个基于信息熵准则构建的分类算法，决策树是一个类似于流程图的树形分类模型，其元素包含根节点、内部节点、树叶节点、分支。根节点代表算法的开始，代表整个训练样本集，内部节点代表一个属性上的测试，每一个分支代表着属性测试的结果，每一个树叶节点代表类或类分布。决策树从根节点顺着内部节点一直到树叶节点，就是一条分类规则，由此便可以建立质量追溯规则。决策树算法采用自顶向下的递归方式，每一层采用贪心策略：每次都是用具有最高信息增益的属性对集合进行划分。具体执行流程如下：

(1)树以代表训练样本(该节点是算法的开始，也就代表整个训练数据集)的单个节点开始；

(2)如果样本都属同一个分类，则该节点成为一个树叶节点，并用该类标号；

(3)如果样本不都属于同一分类，这时就需要使用属性进行划分，但是如果可以使用的划分属性集为空，这时划分也就停止了，直接使用样本中最普遍的类标记，或者存储类分布；

(4)否则，算法使用称为信息熵(Information Entropy)的基于熵的度量作为启发信息，选择能够最好地将样本分类的属性。该属性成为该节点的“测试”或“判定”属性；

(5)对测试属性的每个已知的值，创建一个分支，并据此划分样本；

(6)算法使用同样的过程，递归地形成每个划分上的样本决策树，一旦一个属性出现在一个结点上，就不必在该结点的任何后代上考虑它；

(7)递归划分步骤仅当下列条件之一成立停止：

(a)给定结点的所有样本属于同一类---不用划分；

(b)没有剩余属性可以用来进一步划分样本，在此情况下，使用多数表决或者存储类分布---无法划分，这涉及将给定的结点转换成树叶，并用样本中的多数样本所属的类标记它，替换地，可以存放结点样本的类分布；

(c)分枝test_attribute＝a_i没有样本，在这种情况下，说明我们不能用该属性对样本集合进行划分了，所以我们需要以samples中的多数类创建一个树叶---不能划分。

最佳划分属性是基于信息熵进行选择的，信息熵是信息论中的概念，信息熵可以用来衡量集合的纯度，信息熵越大，集合纯度越低。对于决策树每一轮分裂而言，我们希望分裂后的子集合纯度越高越好。集合信息熵的计算方式如下：

假设S是s个数据样本的集合。假定类标号属性具有m个不同的值，定义m个不同类别号为C_i,i＝1,2,…,m。假设s_i是类C_i中的样本数。对一个给定的样本分类所需要的期望信息由如下公式给出：

其中p_i是任意样本属于C_i的概率，并用s_i/s来估计。假设我们使用属性A来对集合进行划分，并且假设属性A有v个不同的属性值{a₁,a₂,…,a_v}。使用属性A将S划分为v个子集{S₁,S₂,…,S_v}，其中S_j包含S中这样的一些样本，它们在属性上具有值a_j。如果属性A作为划分属性，则这些子集对应于由包含集合S的节点生长出来的分枝。假设s_ij是子集S_j中类C_i的样本数。根据A划分子集的熵由下式给出：

项充当第j个子集的权重，并且等于子集中样本个数除以S中的样本总数。熵值越小，子集划分纯度越高。

但是如果直接使用信息增益作为最佳划分属性的选择标准则会使得算法偏向于选择那些具有很多值的属性，为了避免这个问题，可以使用信息增益率作为新的划分属性衡量标准，信息增益率的定义如下：

其中IV(a)称为属性a的固有值(Intrinsic Value)，属性a的可能取值数目越多，IV(a)的值通常会越大。

但是信息增益率又会偏向于取值数目较少的属性，为避免上述弊端，在选择最优化分属性的时候，首先从候选划分属性中找出信息增益高于平均水平的属性，然后再从中选择信息增益率最高的作为最佳划分属性。

同时为避免由决策树产生的质量追溯规则变得过于复杂以及可能存在的低可靠性，可以通过限制树的最大深度或者划分子集所允许的最少样本数等剪枝策略来提前终止决策树的构造。

基于离散化的质量异常数据集，结合上述决策树算法以及剪枝策略训练得到决策树模型，基于建立的决策树模型可以抽取质量异常数据中蕴含的潜在关联规则，在此基础上形成一个统一的、有序的质量异常问题追溯分析系统。

步骤5，分布式计算处理加速。

基于传统关系型数据库或数据仓库的批处理受限于单台机器计算能力，批处理计算的能力往往比较弱，对于大数据而言往往不能满足其计算效率和时延要求。借助分布式大数据存储系统HDFS以及分布式数据仓库Hive使得基于质量大数据的分布式处理成为可能，依托Spark强大的内存计算能力在很大程度上实现了效率的提升，一般速度的提升在70％以上。

分布式计算加速贯穿于整个质量异常数据追溯分析过程中，首先基于Sqoop配置增量导入策略将结构化质量数据转储到HDFS中，并基于文件对象解析策略将以文件形式存在的质量数据解析到对象数据库中，基于此构建大数据存储中心来实现数据共享和集中管理；然后通过MapReduce编程方法借助分布式平台将HDFS以及对象数据库中的数据解析为关系型表的模式，将其存储在Hive数据仓库中；最后基于Spark内存计算方法编写质量追溯分析程序来实现整个追溯分析过程的计算加速。

附图说明

图1为多源异构质量大数据整合集成流程图。

图2为轮胎产品质量异常数据追溯分析整体流程图。

图3为轮胎产品质量异常数据决策树分析输出模型图。

具体实施方式

下面以轮胎产品为例，结合实施方式对本发明做进一步阐述。图1为多源异构质量大数据整合集成流程图，图2为轮胎产品质量异常数据追溯分析整体流程图，图3为轮胎产品质量异常数据决策树分析输出模型图。

步骤1，多源异构轮胎质量大数据的获取集成。

为保证质量异常数据追溯分析的效果，需要保证质量数据集的完整性和规模性。基于轮胎生产过程，确定所有可获取的与轮胎生产相关的质量数据及其存储位置，包括轮胎动平衡检测数据、成品外检数据、均匀性质检数据、X光检验数据，密炼、成型和硫化生产过程监控数据、设备模具、班组与操作人员数据，原材料属性等数据。这些质量相关数据并非全部都存储在一个信息系统中，并且其存储组织形式也不完全相同，有的数据是以关系型数据表的形式组织，而有的质量检测数据以及原材料属性数据则是以文件形式组织的。为方便后续分析，不仅需要将这些数据集中存储管理，还需要尽量形成统一格式。为此针对存储在MES、ERP等系统中的结构化质量相关数据，使用Sqoop数据迁移工具配置导入迁移策略，以增量的方式将这部分的数据导入到HDFS中，同时针对以文件形式存在的部分质量检测数据、原料属性数据则编写针对性的文件对象解析策略将其组织成对象的形式存放在对象数据库中。然后基于MapReduce编程框架以轮胎条形码Bar_code为关联主键追溯轮胎生产数据以及质量检测数据，基于关系型模式在Hive构建统一格式的质量追溯分析数据集，参见图1。

步骤2，数据预处理。

由于动平衡检测结果可以由DPH_BAL_RANK、DPH_RO_RANK以及DPH_UFM_RANK三个指标共同决定，三个指标中只要有一个指标的取值为4或5，那么该产品则被判定为不合格品，否则为合格品。为找出质量异常数据，需要根据这三个检测指标综合编码形成hege这一新的质量判定字段，其中用数字1表示产品合格，用数字0表示产品质量异常，从而形成简单直观的质量检测结果。然后基于hege字段的结果抽取存在质量异常问题的记录，基于轮胎编码将存在质量异常的轮胎的所有相关质量数据整合集成到一起，形成质量异常分析数据集。通过记录重复性检测发现少数记录存在重复，为保证记录的唯一性，基于数据库索引快速将重复记录删除，仅保留一份。同时在分析数据集的时候发现部分字段存在一定程度的缺失，其中的一种缺失类型是在像material_code这样的属性上存在缺失，由于其缺失值无法估计，所以直接删除对应记录；另外一种缺失类型则是在像Build_workshop_code、Board_Temp等属性上存在缺失，针对这样的数据缺失我们基于KNN算法使用记录之间的相似性来选择最可能的数据进行缺失值填补。经过上述预处理过程得到记录唯一、数值完整的轮胎质量异常追溯分析数据集。

步骤3，特征抽取。

上述得到轮胎质量异常追溯分析数据集中所包含的模具内温、模具内压、板温、板压、轮胎成型、硫化等过程中的温度、压力等属性均是一系列时序数据的特征，在一个属性字段中存放了一连串的时序数据，为了方便建模分析，需要基于这些时序数据进一步抽取其统计指标作为辅助性分析特征，采用的统计指标主要有平均值、Z得分、方差、标准差、最大值、最小值以及极差。针对模具内温、模具内压、板温、板压、轮胎成型、硫化等过程中的温度、压力等属性分别计算上述统计指标，添加到质量异常数据追溯分析数据集中作为后续分析的基础。

步骤4，质量异常数据追溯分析。

首先是单因素关联分析；其次为了得到涵盖轮胎生产全过程的、存在优先次序的、科学有效的质量异常追溯分析规则在单因素关联分析的基础上进行多因素的决策树分析。在执行多因素决策树分析之前，通过对质量异常数据集的分析发现存在像模具内温、模具内压、板温的均值、方差、最大值、最小值等数值型属性，而这些属性不符合决策树的输入数据格式要求，所以首先要将这些数值型属性进行离散化处理，离散化处理的关键在于离散化策略的设计，为了保证离散化策略的合理性，我们首先基于Kmeans聚类算法对模具内温均值、方差等数值型属性进行必要的聚类，使用聚类描述其内在结构，然后基于属性取值的内在结构确定每个划分簇的划分边界，以此抽取出针对性的离散化策略。比如针对模具内温均值，根据kmeans聚类结果将其划分为2类，划分边界分别为[172.25664335664337，174.00]、(174.00，176.58663366336626]，接着按照这样的划分边界对模具内温均值进行离散化处理。得到离散化的数据集之后使用WEKA数据分析工具构建决策树模型。WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)，作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。具体而言我们使用WEKA中的AdTree构建多因素决策树模型。首先我们使用Python编写K-means算法以对原始数据集中的连续型属性进行聚类，通过聚类结果抽取针对性的离散化策略，在将原始数据集中的所有连续型属性离散化处理之后得到符合标准的决策树输入数据集，使用WEKA中的Adtree建立决策树模型；同时为了防止决策树模型因为属性的强分散性而产生的不稳定性，我们通过设置分裂节点所需要的最少节点数来提前终止决策树模型的构造，从而提升决策树模型的泛化能力。从构建的决策树模型中提取到一些关键的信息，比如“20％的设备产生80％以上的质量异常轮胎”等，这些有关生产过程的规律能够很好地帮助企业精确捕捉质量异常的源头，从而方便调整排查。

步骤5，分布式计算处理加速。

首先基于Sqoop配置增量导入策略将结构化质量数据转储到HDFS中，并基于文件对象解析策略将以文件形式存在的质量数据解析到对象数据库中，基于此构建大数据存储中心来实现数据共享和集中管理；然后通过MapReduce编程方法将HDFS以及对象数据库中的数据解析为关系型表的模式，将其存储在Hive数据仓库中；最后基于Spark内存计算方法编写质量追溯分析程序来实现整个追溯分析过程的计算加速。

Claims

1.基于制造大数据的产品质量异常数据追溯分析方法，其特征在于，包括以下步骤：

步骤1，多源异构质量大数据获取集成

收集并整理多源异构的产品生产质量数据以及产品质量检测数据，形成统一格式的结构化产品质量分析数据集；

步骤2，质量大数据预处理

从产品质量分析数据集中抽取异常数据，并对其进行数据去重和数据缺失值填补；

步骤3，特征抽取

基于行业背景知识和分析经验从进行质量大数据预处理后的数据集中，抽取其包含数据的统计指标作为辅助特征，形成产品质量异常数据集；

步骤4，质量异常数据追溯分析

2.根据权利要求1所述的基于制造大数据的产品质量异常数据追溯分析方法，其特征在于，还包括以下步骤：

步骤5，分布式计算加速

基于分布式大数据处理方法，将产品质量分析数据集存放分布式大数据存储系统HDFS以及分布式数据仓库Hive中，并利用Spark内存计算方法加快质量异常数据追溯分析处理速度。

3.根据权利要求1或2所述的基于制造大数据的产品质量异常数据追溯分析方法，其特征在于，步骤1具体为：

(1)识别与产品生产相关的质量数据源及其存储位置；

(2)利用Sqoop配置关系型数据库与HDFS之间的数据连接，以增量导入的方式获取所有质量数据；

(4)梳理和清理数据；

(5)基于关系型模型在Hive中集成前面获取到的所有质量数据；

(6)建立结构化的产品质量分析数据集。

4.根据权利要求1或2所述的基于制造大数据的产品质量异常数据追溯分析方法，其特征在于，步骤2具体为：

5.根据权利要求1或2所述的基于制造大数据的产品质量异常数据追溯分析方法，其特征在于，步骤3中的统计指标具体为：

统计指标包括但不限于平均值、Z得分、方差、标准差、最大值、最小值、极差。

6.根据权利要求1或2所述的基于制造大数据的产品质量异常数据追溯分析方法，其特征在于，步骤4具体为：

质量异常数据追溯分析主要包括：单因素关联分析和多因素决策树分析；首先进行覆盖产品生产全过程的单因素关联分析，找到影响产品质量的主要因素；然后通过涵盖产品生产各个环节的质量特征进行多因素决策树分析，实现对产品质量异常数据的追溯分析；

单因素关联分析的流程为：

(3)通过图表的形式将不合格数和不合格率进行内容呈现，以便直观的预测分析出各个因素与产品质量的相关关系，制定出相应的改善方案；

多因素决策树分析的流程为：

(4)基于离散化的产品质量异常数据集，利用决策树算法以及剪枝策略构建多因素决策树模型；

7.根据权利要求1或2所述的基于制造大数据的产品质量异常数据追溯分析方法，其特征在于，步骤5具体为：

(1)基于Sqoop配置增量导入策略，将结构化质量数据转储到HDFS中，并基于文件对象解析策略将以文件形式存在的质量数据解析到对象数据库中，基于此构建大数据存储中心来实现数据共享和集中管理；

(2)通过MapReduce编程方法将HDFS以及对象数据库中的数据解析为关系型表的模式，将其存储在Hive数据仓库中；

(3)基于Spark内存计算方法编写产品质量追溯分析程序实现整个追溯分析过程的计算加速。