CN112434923B

CN112434923B - 一种基于子空间聚类的机械产品质量分析方法

Info

Publication number: CN112434923B
Application number: CN202011281735.8A
Authority: CN
Inventors: 庞宁; 张继福; 胡立华
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2024-02-06
Anticipated expiration: 2040-11-16
Also published as: CN112434923A

Abstract

本发明一种基于子空间聚类的机械产品质量分析方法，属于机械产品质量分析技术领域；所要解决的技术问题为：提供一种基于子空间聚类的机械产品质量分析方法；解决该技术问题采用的技术方案为：包括如下步骤：在Hadoop集群中，根据数据量的变化，将处理好的工序数据上传至Hadoop的HDFS中保存；具体在Hadoop集群中，依次执行三个作业：采用基于LSH数据划分方法将相似的工序数据划分到相同数据块中，并投影到同一数据节点上；负责识别出各数据节点上数据的属性子空间；实现并行子空间聚类过程，从局部聚类阶段获得的子簇中产生最终聚类结果，由聚类结果发现隐藏在簇集中影响产品质量的共性隐性问题；本发明应用于机械产品质量分析。

Description

一种基于子空间聚类的机械产品质量分析方法

技术领域

本发明一种基于子空间聚类的机械产品质量分析方法，属于机械产品质量分析技术领域。

背景技术

作为我国国民经济的重要基础产业，机械制造业为整个国民经济提供了技术装备和必要保障。随着产品性能和产品结构的发展和完善，生产线、生产设备以及制造过程的信息量激增，同时，大数据挖掘技术以及人工智能技术的发展为提高制造系统处理制造信息的能力和效率提供了技术支持，使得机械制造由原本能量驱动型转变为信息驱动型，从而开启了智能制造时代。

产品质量是制造企业发展的核心。制造过程环节众多、工艺机理复杂、工艺参数动态变化等，都是影响产品质量的关键因素。为了避免不必要的产品损失，制造企业开始重视生产过程的监测，对产品质量进行有效预测和及时检测，改善和消除不良质量影响因素，降低生产成本。针对产品质量分析的方法研究是制造企业迫在眉睫的任务之一。

制造系统在生产过程中存在大量问题，其中包括例如测量失效、质量缺陷、设备损耗和精度损失等可见问题和不可见问题等。可见问题是已经发生了的，对机械制造生产造成重大影响和后果的问题；而不可见问题往往积累发展为可见问题才会被发现和解决，但其对于生产同样具有严重的破坏性，例如，由于设备磨损造成精度下降所导致的不合格产品。传统质量分析方法往往基于可见问题进行分析，无法预先发现或避免不可见问题，一般具有滞后性。

在解决问题和发现问题过程中，会产生大量数据，数据需要围绕问题的产生和原因获取，获取数据的目的是分析问题、解决问题和避免问题。本项目对工业大数据进行分析和挖掘，明晰问题的产生原因，预测问题的发生时机，提前干预，减少损失和降低成本。项目从数据中获取和提炼知识，将知识再次转化为数据指导设计，修正工艺和决策生产。利用大数据技术从数据中挖掘出隐性问题线索，从而预测、分析和解决"隐性问题"，有效避免"可见问题"。显然，大数据可以为分析问题和解决问题提供了一种途径和手段，以大数据驱动的智能制造，通过分析数据、挖掘数据、预测需求、提前预测和避免隐形风险，并利用数据提高产业价值。

作为数据挖掘的重要研究内容，聚类分析可以解决海量数据背景下的诸多领域问题。在智能制造过程中，聚类分析技术可以应用到原料管理、成本控制、过程调度、质量监控等环节，尤其在机械故障诊断，典型工艺路线发现与提取与质量预测与检测等领域。

尽管聚类分析技术可满足传统制造领域的多种挖掘需求，但随着大数据时代的到来，制造业生产加工全周期信息化的程度越来越高，工业大数据贯穿企业的整个生产周期，与其他行业数据不同，工业大数据具有连续性、多样性、实时性、规模性等特点。在实现制造业数字化的过程中，工业大数据的处理极其复杂，工艺参数、生产工序的变化都会导致数据的结构发生巨大变化，显然，传统聚类分析技术已无法有效处理海量多维动态的工业大数据。

发明内容

本发明为了克服现有技术中存在的不足，所要解决的技术问题为：提供一种基于子空间聚类的机械产品质量分析方法。

为了解决上述技术问题，本发明采用的技术方案为：一种基于子空间聚类的机械产品质量分析方法，包括如下步骤：

步骤一：数据预处理；具体在Hadoop集群中，根据数据量的变化，设置环境参数，采用数据预处理技术，将处理好的工序数据上传至Hadoop的HDFS中保存；

步骤二：基于子空间聚类的质量检测及分析；具体在Hadoop集群中，依次执行三个MapReduce作业：

第一个作业采用基于LSH数据划分方法将相似的工序数据划分到相同数据块中，并投影到同一数据节点上；

第二个作业负责识别出各数据节点上数据的属性子空间；

第三个作业实现并行子空间聚类过程，在Map阶段，从各计算节点的相似数据中产生子簇；为修正局部聚类结果，在Reduce阶段判断从各计算节点获取的局部子簇是否需要合并，从局部聚类阶段获得的子簇中产生最终聚类结果，由聚类结果发现隐藏在簇集中影响产品质量的共性隐性问题。

所述步骤二中依次执行三个MapReduce作业的具体步骤为：

步骤2.1：所述第一个作业采用基于LSH数据划分策略将相似数据投影至同一数据桶中：在各节点数据子集上，Mapper基于MinHash算法去创建特征矩阵和签名矩阵，采用基于LSH数据划分策略，将具有相同哈希值的段被投影到同一哈希桶中，每个哈希桶包含相似数据点；

定义每个数据点O_i均表示为一个向量，每个向量分量代表相应桶单元序号，采用一个线性哈希函数H(O_i)将向量转化为一个整数P_j，每个数据点O_i被分配给标号为P_j的分区中，Reducer负责从各计算节点上收集合并所有具有相同分区标号的数据点，并获得完整的分区信息；

步骤2.2：所述第二个作业具体计算每个属性值的权值，将重要属性投影到属性子空间，根据每个属性值权重来量化属性子空间：

为量化每个属性值a_ij的权值，Mapper负责统计每个属性值a_ij在单属性维a_j上的出现次数，以及每对属性值在多属性上的同现次数；

Reducer负责合并各计算节点数据在单属性上的出现次数和同现次数以计算各属性值a_ij权值，最终由Reducer输出一个列表，分量格式为(<aij，i，j>，W(aij))；

步骤2.3：所述第三个作业具体实现并行子空间聚类过程：

作业中的每个Mapper从局部数据块上顺序读入数据点并任意选取数据点作为第一个子簇，在局部子空间聚类阶段过程中，输入数据中的每个数据点Oi被分配给现有子簇或创建新子簇，在调整子簇过程中，以最大化簇集质量为目标，合并各计算节点上的相似子簇，并将子簇集作为局部子空间聚类的中间结果保存至HDFS中，然后由Reducer采用层次聚合聚类算法迭代合并最相似子簇，产生最终全局聚类结果，即可发现隐藏在簇集中影响产品质量的共性隐性问题。

所述步骤2.1中基于LSH数据划分策略方法的具体步骤为：

步骤2.1.1：投影桶数组：创建数组保存由传统LSH技术所获取的基础数据桶，该步骤先将签名矩阵划分为b段，每段由r行组成，如果两数据的所有签名段中至少有一对签名段被投影到同一桶中，数据O_i和O_j将被视为相同，重复执行b次上述操作后，每个数据均被映射到b个桶单元中；

步骤2.1.2：合并相似桶元素：在步骤2.1.1中，向量G所具有的b个分量表示每个数据点均被依次投影到b个不同的数据桶中，采用线性哈希映射函数H(O_i)，将数据O_i向量G转化为一个代表分区标号的整数；

步骤2.1.3：划分数据：通过上述步骤的结果划分数据，属于同一个bucket的数据将投影到同一个分区中，即可以保证落入同一分区的数据具有高度相似性。

所述步骤2.2中属性权重计算方法的具体步骤为：

步骤2.2.1：为量化每个属性值a_ij的权值，Mapper负责统计信息：

每个属性值x_ki在单属性维a_i上的出现次数，每对属性值在多属性上的同现次数，列表L_d用来保存在多属性上的同现次数；

步骤2.2.2：为了减轻shuffle阶段的网络通讯成本，将步骤2.2.1产生的数量众多的小key/value对合并生成一个复合key/value对，元组<x_ij,j>作为Mapper输出的key值，其中，j是属性值x_ij所处属性维的序号；

Mapper输出的复合value值为元组<i，L_d>，其中列表L_d分量可表示为元组<(x_ijx_is，j，s)，1>，x_ijx_is是属性对{x_ij，x_is}同时出现在属性维a_j和a_s上的次数；

步骤2.2.3：在步骤2.2.2产生复合key/value对的基础上，Reducer为每个属性值x_ki计算其属性权重W(x_ki)，Reducer输出一个列表，分量格式为(<x_ki，k，i>，W(x_ki))，W(x_ki)形式化表示为：

式中W_ai(x_ki)是从本地属性a_i的角度度量属性值x_ki单属性权重，对于任意a_i∈A，设可以定义为：

式中反映属性值x_ki在a_i上出现的次数；

W_aj(x_ki)是从相关属性a_j的角度度量x_ki的多属性权重，则可以定义为：

式中表示包含数据点x_k的a_j等价类，/>表示两等价类交集的元素个数，即属性值x_ki与x_kj的同现次数，/>W_aj(x_ki)的定义表明属性值x_kj与x_ki同现次数占/>的比例越大，从a_j的角度上所反映的x_ki聚类作用越大。

所述步骤2.3中子空间聚类方法的具体步骤为：

步骤2.3.1：各个Mapper从局部数据块上顺序读入数据点并任意选取一个数据点保存到列表SC中作为第一个子簇，以最大化簇集质量Q(C)为目标，将后续数据点依次分配给现有子簇或创建新子簇，定义簇集C＝{C₁，C₂，…，C_k}，则Q(C)可形式化表示为：

式中P(C_s)代表C_s中的数据点占整个数据集的比例；Q(C_s)则表示簇C_s的质量，可定义为：

式中count(x_ki，a_i，C_s)表示在类簇C_s内，投影在a_i上的值为x_ki的数据点数目；n代表数据集的数据总量；W(x_ki)是属性值x_ki的权值；count(x_ki，a_i)是指在属性a_i上x_ki出现的总次数；

步骤2.3.2：在步骤2.3.1所形成子簇的基础上，各Mapper以最大化簇集质量为目标，迭代调整子簇，合并各计算节点上的相似子簇，Mapper的输出结果是一个列表，该列表分量形式为{subclusterID，sc_i}，其中子簇sc_i是合并后形成的子簇，并作为局部子空间聚类的中间结果保存至HDFS中；

步骤2.3.3：Reducer采用层次聚合聚类算法迭代合并最相似子簇，产生最终全局聚类结果，每个Reducer任务输出<key，dendrogram>对，其中dendrogram以层次树形结构的形式代表全局聚类结果，根据全局聚类结果发现隐藏在簇集中影响产品质量的共性隐性问题。

本发明相对于现有技术具备的有益效果为：本发明提供一种聚类分析方法，主要利用子空间聚类分析算法，从合格品中挖掘偏离期望的产品类簇，发现隐藏在产品生产过程中共性隐性问题，有效提高产品竞争力，提升产品质量等级，为机械智能制造过程中加工质量管理和质量控制提供一种新模式和途径。

附图说明

下面结合附图对本发明做进一步说明：

图1为本发明实施方案流程图；

图2为本发明MapReduce框架图；

图3为本发明针对冷轧辊加工数据的子空间聚类运行结果图；

图4和图5为本发明针对冷轧辊加工数据的质量分析结果图。

具体实施方式

本发明提供的基于子空间聚类的机械产品质量分析方法主要包括：数据预处理和基于子空间聚类的质量检测及分析。

其中数据预处理主要采用数据转换、数据清理和数据离散化等技术，其中，数据清理包括空缺值填充、噪音数据消除和不一致处理等。数据离散化主要是为了稳定数据特征，并统一数据类型，采用等宽离散化方法将非分类型数据转化为分类型数据，使之满足聚类算法处理所需。

所述数据预处理具体步骤为：针对工业大数据海量、高维、多类型的特点，在Hadoop集群中，根据数据量的变化，设置环境参数，例如数据节点的个数、Reduce的个数等，采用数据预处理技术，将处理好的工序数据等上传至Hadoop的HDFS中保存。

在Hadoop集群中，基于子空间聚类的质量检测及分析可设计为三个MapReduce作业，第一个作业采用基于LSH数据划分方法将相似的工序数据划分到相同数据块中，并投影到同一数据节点上；第二个作业负责识别出各数据节点上数据的属性子空间；第三个作业主要实现并行子空间聚类过程，其中，在Map阶段，从各计算节点的相似数据中产生子簇；为了修正局部聚类结果，Reduce阶段主要判断从各计算节点获取的局部子簇是否需要合并，从局部聚类阶段获得的子簇中产生最终聚类结果。

所述基于子空间聚类的质量检测及分析具体过程为：

b1.所述第一个作业主要负责采用基于LSH数据划分策略将相似数据投影至同一数据桶中。具体为：在各节点数据子集上，Mapper基于MinHash算法去创建特征矩阵和签名矩阵。采用基于LSH数据划分策略，将具有相同哈希值的段被投影到同一哈希桶中，每个哈希桶包含相似数据点。因此，每个数据点O_i均可表示为一个向量，每个向量分量代表相应桶单元序号。采用一个线性哈希函数H(O_i)将向量转化为一个整数P_j，O_i被分配给标号为P_j的分区中。Reducer负责从各计算节点上收集合并所有具有相同分区标号的数据点，并获得完整的分区信息。

b2.所述第二个作业的目标是计算每个属性值的权值。将重要属性投影到属性子空间上对于子空间聚类分析是一项至关重要的环节，根据每个属性值权重来量化属性子空间。具体为：为了量化每个属性值a_ij的权值，Mapper负责统计两种信息：每个属性值a_ij在单属性维a_j上的出现次数；每对属性值在多属性上的同现次数。Reducer负责合并各计算节点数据在单属性上的出现次数和同现次数以计算各属性值a_ij权值。Reducer的输出是一个列表，其分量格式为(<aij，i，j>，W(aij))。

b3.所述第三个作业的目标是实现并行子空间聚类过程。具体为：作业中的每个Mapper从局部数据块上顺序读入数据点并任意选取数据点作为第一个子簇。在局部子空间聚类阶段过程中，输入数据中的每个数据点Oi被分配给现有子簇或创建新子簇；在调整子簇过程中，以最大化簇集质量为目标，合并各计算节点上的相似子簇，并将子簇集作为局部子空间聚类的中间结果保存至HDFS中。Reducer采用层次聚合聚类算法迭代合并最相似子簇，产生最终全局聚类结果，即可发现隐藏在簇集中影响产品质量的共性隐性问题。

具体的，在步骤b1中，基于LSH数据划分策略的方法为：

b11.投影桶数组。创建数组保存由传统LSH技术所获取的基础数据桶。该步骤先将签名矩阵划分为b段，每段由r行组成。如果两数据的所有签名段中至少有一对签名段被投影到同一桶中，数据O_i和O_j将被视为相同。重复执行b次上述操作后，每个数据均被映射到b个桶单元中。

b12.合并相似桶元素。在步骤b11中，向量G所具有的b个分量意味着每个数据点均被依次投影到b个不同的数据桶中。采用线性哈希映射函数H(O_i)，将数据O_i向量G转化为一个代表分区标号的整数。

b13.划分数据。通过上述步骤的结果划分数据。属于同一个bucket的数据将投影到同一个分区中，即可以保证落入同一分区的数据具有高度相似性。

具体的，在步骤b2中，属性权重计算方法为：

b21.为了量化每个属性值a_ij的权值，Mapper负责统计两种信息：每个属性值x_ki在单属性维a_i上的出现次数；每对属性值在多属性上的同现次数。列表L_d用来保存在多属性上的同现次数。

b22.为了减轻shuffle阶段的网络通讯成本，将步骤b21产生的数量众多的小key/value对合并生成一个复合key/value对。元组<x_ij,j>作为Mapper输出的key值，其中，j是属性值x_ij所处属性维的序号。Mapper输出的复合value值为元组<i，L_d>，其中，列表L_d分量可表示为元组<(x_ijx_is，j，s)，1>。x_ijx_is是属性对{x_ij，x_is}同时出现在属性维a_j和a_s上的次数。

b23.在步骤b22产生的复合key/value对的基础上，Reducer为每个属性值x_ki计算其属性权重W(x_ki)，Reducer的输出是一个列表，其分量格式为(<x_ki，k，i>，W(x_ki))，W(x_ki)可形式化表示为：

其中，W_ai(x_ki)是从本地属性a_i的角度度量属性值x_ki单属性权重，对于任意a_i∈A，设可以定义为：

反映了属性值x_ki在a_i上出现的次数；

表示包含数据点x_k的a_j等价类，/>表示两等价类交集的元素个数，即，属性值x_ki与x_kj的同现次数，/>W_aj(x_ki)的定义表明属性值x_kj与x_ki同现次数占/>的比例越大，从a_j的角度上所反映的x_ki聚类作用越大。

具体的，在步骤b3中，子空间聚类方法为：

b31.各个Mapper从局部数据块上顺序读入数据点并任意选取一个数据点保存到列表SC中作为第一个子簇，以最大化簇集质量Q(C)为目标，将后续数据点依次分配给现有子簇或创建新子簇，假设簇集C＝{C₁，C₂，…，C_k}，Q(C)可形式化表示为：

其中，P(C_s)代表C_s中的数据点占整个数据集的比例；Q(C_s)则表示簇C_s的质量，可定义为：

count(x_ki，a_i，C_s)表示在类簇C_s内，投影在a_i上的值为x_ki的数据点数目；n代表数据集的数据总量；W(x_ki)是属性值x_ki的权值；count(x_ki，a_i)是指在属性a_i上x_ki出现的总次数。

b32.在步骤b31所形成子簇的基础上，各Mapper以最大化簇集质量为目标，迭代调整子簇，合并各计算节点上的相似子簇，Mapper的输出结果是一个列表，该列表分量形式为{subclusterID，sc_i}，其中，子簇sc_i是合并后形成的子簇，并作为局部子空间聚类的中间结果保存至HDFS中。

b33.Reducer采用层次聚合聚类算法迭代合并最相似子簇，产生最终全局聚类结果，每个Reducer任务输出<key，dendrogram>对，其中，dendrogram以层次树形结构的形式代表全局聚类结果，利用全局聚类结果可发现隐藏在簇集中影响产品质量的共性隐性问题。

下面结合附图对本发明做进一步详细说明。

如图1所示，本发明是基于子空间聚类的机械产品质量分析方法，主要包括以下步骤：

步骤一：数据预处理；该步骤主要包括数据转化、数据清除和数据离散化。

机械加工数据常以工序指标为存储单元，将原始加工数据按照工序分组，每组数据形成单独数据子表，将机械产品指标信息作为表记录；剔除掉冗余无关的多余属性，精简各子表结构。

为了保证处理数据的完整性和一致性，需要采用数据清洗技术实现补全空缺值、去除噪音数据等目的。针对重要数据采用企业加工人员人工补全空缺值，对于不重要的数据值或缺失比例很小的情况采用变量删除法。

机械加工数据类型复杂，为了有效稳定数据特征、压缩数据存储空间、降低数据处理复杂度并提高算法的时空效率，本发明采用等宽方法进行数值型数据进行离散化，将连续属性的值域划分为具有相同宽度的区间，各区间采用同一分类型值代表，而区间的个数由用户指定。

原始机械加工数据经过数据预处理之后，上传至Hadoop集群的分布式文件管理系统HDFS中保存。根据加工数据的数据规模，配置Hadoop集群节点数、Reduce的个数等，一般Hadoop集群节点默认为8个节点。

步骤二：基于子空间聚类的质量检测及分析设计了三个MapReduce作业，见图2，第一个作业采用基于LSH数据划分方法将相似的工序数据划分到相同数据块中，并投影到同一数据节点上；第二个作业负责识别出各数据节点上数据的属性子空间；第三个作业主要实现并行子空间聚类过程，使用Mapper在各计算节点相似数据中产生子簇作为局部聚类结果保证至HDFS中；使用Reducer合并从各计算节点获取的相似的局部子簇，产生最终簇集结果，从中可以检测出具有共性隐性问题的缺陷轧辊簇。

所述的第一个作业主要实现了基于LSH的数据划分过程，由一个Mapper函数和一个Reducer函数组成，Mapper函数顺序地从各节点数据子集中读入数据点，并将每个数据按照格式<LongWritable offset,Text object>存储。采用MinHash算法创建特征矩阵和签名矩阵，使用列表分别保存特征矩阵和签名矩阵。采用基于LSH数据划分策略，将签名矩阵划分成b段，每段由r行组成。具有相同哈希值的段被投影到同一哈希桶中，每个哈希桶包含相似数据点。数据点O_i可表示为一个向量，每个向量分量代表相应桶单元序号。采用一个线性哈希函数H(O_i)将向量转化为一个整数P_j，O_i被分配给标号为P_j的分区中。使用形如<P_j，objectID>的元组作为Mapper的输出结果。

Reducer从各计算节点上收集合并所有具有相同分区标号的数据点，并获得完整的分区信息。Reducer输出结果是一个列表，用于保存形如<partitionID，L_p>元素对，其中，partitionID表示了数据分区的标号，L_p代表包含所有属于分区partitionID的数据列表。

所述创建特征矩阵的方法为：构造一个m*n特征矩阵M描述一个包含n个数据和m维属性的数据集O，其中列表示数据，行表示属性值。特征矩阵M的取值仅包含1和0两种，其中，如果属性值r出现在数据c上，将位置(r，c)值设置为1；否则，位置(r，c)值设为0。

所述创建签名矩阵的方法为：先随机调整各行位置，再计算各列c_i最小哈希值(即，hmin_j(c_i))组成一个签名。从物理意义上看，最小签名值是第一个非零属性值在特征矩阵中的排列位置。重复执行L次上述过程，可得到多重签名并形成L*n签名矩阵，其中L表示minhash函数数目，n表示数据总数。

所述的基于LSH数据划分策略方法为：

投影桶数组。创建数组保存由传统LSH技术所获取的基础数据桶。该步骤先将签名矩阵划分为b段，每段由r行组成。如果两数据的所有签名段中至少有一对签名段被投影到同一桶中，数据O_i和O_j将被视为相同。重复执行b次上述操作后，每个数据均被映射到b个桶单元中，最终会产生总量为的数据桶，其中，b为数据桶数组的数量。数据Oi可用向量的形式G(Oi)＝(v₁(O_i),…,v_b(O_i))表示，其中v_i表示数据O_i在第i个桶数组中的位置。

合并相似桶元素。在步骤b11中，向量G所具有的b个分量意味着每个数据点均被依次投影到b个不同的数据桶中。为了消除产生数据冗余和降低成本计算，可采用线性哈希映射函数H(O_i)，将数据O_i向量G转化为一个代表分区标号的整数。

这里，定义映射函数H(O_i)为：

H(O_i)＝(a₁×v₁(O_i)+a₂×v₂(O_i)+…+a_d×v_d(O_i))MOD M，其中常量系数ai取值范围在0和M-1之间，即a_i∈[0，M-1]，M是分区总数。

划分数据。通过上述步骤的结果划分数据。属于同一个bucket的数据将投影到同一个分区中，即可以保证落入同一分区的数据具有高度相似性。

所述的第二个作业主要负责通过多属性之间同现频次计算属性权值，Mapper负责统计各个属性取值x_ki在单属性a_i上的出现频次和在多属性a_i和a_j上的同现频次和/>均是基于等价类描述的概念，其中，反映了属性值x_ki在a_i上出现的次数，/>表示两等价类交集的元素个数，即，属性值x_ki与x_kj的同现次数。Mapper阶段产生数量众多的key/value，为了减轻shuffle阶段的网络通讯成本，将相同key值合并生成一个复合key/value对。元组<x_ij,j>作为Mapper输出的key值，其中，j是属性值x_ij所处属性维的序号。Mapper输出的复合value值为元组<i，L_d>，其中，列表L_d分量可表示为元组<(x_ijx_is，j，s)，1>。x_ijx_is是属性对{x_ij，x_is}同时出现在属性维a_j和a_s上的次数。

Reducer为每个属性值x_ki计算其属性权重W(x_ki)，Reducer的输出是一个列表，其分量格式为(<x_ki，k，i>，W(x_ki))，W(x_ki)可形式化表示为：

其中，反映了属性值x_ki在a_i上出现的次数；

所述的第三个作业负责实现并行子空间聚类过程。每个Mapper顺序读入各节点上数据点并任意选取某一数据点作为子簇的第一个元素。根据簇集质量，其余各数据点Oi依次被分配给现有子簇或创建新子簇；以最大化簇集质量为目标，合并各计算节点上的相似子簇以调整优化子簇结构，并将子簇集作为局部子空间聚类的中间结果保存至HDFS中。Mapper的输出结果是一个列表，该列表分量形式为{subclusterID，sc_i}，其中，子簇sc_i是合并后形成的子簇。Reducer采用层次聚合聚类算法迭代合并所有子簇中最相似子簇，产生最终全局聚类结果，每个Reducer任务输出<key，dendrogram>对，其中，dendrogram以层次树形结构的形式代表全局聚类结果，即可发现隐藏在簇集中影响产品质量的共性隐性问题。

所述的簇集质量评价方法为：

假设簇集C＝{C₁，C₂，…，C_k}，Q(C)可形式化表示为：

以某机械加工企业冷轧辊分厂的产品生产加工数据为例，采用上述步骤，利用子空间聚类分析获取具有潜在缺陷的类簇，该类簇内数据检测指标值明显偏离期望，具有共性隐性问题。图3显示了从合格轧辊产品中挖掘出的类簇信息，聚类分析的结果包括两部分：类簇集由符合簇集条件的冷轧辊号组成；属性子空间是由决定该类簇划分的主要属性子集组成，即标识类簇的关键属性特征，包括工序指标信息、设备信息等。

利用簇集及其属性子空间进行质量分析，挖掘影响产品质量的隐性因素，例如，工序因素和设备因素，其分析结果如图4、图5所示。图4是工序分析运行结果，具有共性隐性问题的工序因素所导致的七个大型类簇以及其属性子空间。工序分析结果显示：类簇C1中的全部冷轧辊在四个检测指标上均呈现出相似的偏离现象，例如：辊颈直径的合格取值范围为[63mm,63.4mm]，C1内所有轧辊的辊颈直径值均为63mm，明显偏离正态分布期望值63.2mm，同时，类簇C1内的轧辊数量占总轧辊数的81.6％，说明绝大多数的轧辊均在半车工序的辊颈直径等四个指标值出现共性偏离，反映出半车工序可能需要调整或优化加工工艺。工艺分析通过分析工序指标变化趋势，掌控工序流程的质量水准，优化不合理的工序环节，提高最终产品质量水准。

图5显示了设备分析运行结果，包括五个类簇及其属性子空间，其中，类簇C1内所有冷轧辊在一次半精磨工序的辊身外圆直径指标上出现了相似的偏差，而其加工设备均为31009号，该现象说明31009号等加工设备可能存在潜在的隐性问题。加工设备上的隐性问题会导致同批次轧辊在工序相关指标值出现共性偏差，进而影响企业生产效率，设备分析可有效提高设备使用率和企业智能化管理水平。

轧辊是轧钢机上的主要工作部件和工具，其主要作用是使金属产生连续塑性变形，轧辊品质直接关系到轧制生产企业的高效化生产和轧制产品的质量水平。按照所轧钢材状态，轧辊可以分为热轧辊、冷轧辊两种。冷轧辊作为机械加工企业的大宗消耗性工具备件,其消耗量通常在生产成本中的比例高达15％左右。同时，冷轧辊属于高技术含量、高附加值产品,其生产工艺流程长、制造工艺复杂、质量要求高。轧辊生产过程中检测手段落后、管理不当，失效事故频发都是导致轧辊消耗和生产成本增加的主要原因。目前，各冷轧生产企业锻钢轧辊纷纷分析轧辊失效原因，提升健康检测技术手段，提前预测与干预产品质量趋势，减少轧辊生产事故的发生，提高企业经济效益。

本发明实施例以某机械设备制造公司冷轧辊分厂为背景，使用子空间聚类分析方法对海量冷轧辊生产数据进行工序以及设备质量检测分析，其中，根据工序检测信息数据，分析工序中不同指标质量水平以及变化趋势，掌握工序流程的质量水准；查找并改进工序中不合理或陈旧的工序环节；根据加工信息数据，分析不同加工设备的质量水平以及变化趋势，明确设备状况；分析导致产品质量下降的设备原因，提高设备使用率，探讨改进方案。该项目可以预测产品质量变化趋势，分析导致不同质量趋势的共性隐性因素，提高企业管理水平。根据生产企业的实际情况，给出关于工序和设备的质量检测分析结果，作为质量管理监控的决策依据，优化企业决策，提高产品质量等级，为机械制造过程中的智能质量管理和智能化生产，提供一种新模式和途径，具有积极的社会效益。

最后应说明的是：上述实施例以冷轧辊加工过程质量分析为例，对本发明的实施给出了详细说明，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于子空间聚类的机械产品质量分析方法，其特征在于：包括如下步骤：

第二个作业负责识别出各数据节点上数据的属性子空间；

第三个作业实现并行子空间聚类过程，在Map阶段，从各计算节点的相似数据中产生子簇；为修正局部聚类结果，在Reduce阶段判断从各计算节点获取的局部子簇是否需要合并，从局部聚类阶段获得的子簇中产生最终聚类结果，由聚类结果发现隐藏在簇集中影响产品质量的共性隐性问题；

依次执行三个MapReduce作业的具体步骤为：

步骤2.1：所述第一个作业采用基于LSH数据划分策略将相似数据投影至同一数据桶中：

在各节点数据子集上，Mapper基于MinHash算法去创建特征矩阵和签名矩阵，采用基于LSH数据划分策略，将具有相同哈希值的段被投影到同一哈希桶中，每个哈希桶包含相似数据点；

步骤2.3：所述第三个作业具体实现并行子空间聚类过程：

2.根据权利要求1所述的一种基于子空间聚类的机械产品质量分析方法，其特征在于：所述步骤2.1中基于LSH数据划分策略方法的具体步骤为：

3.根据权利要求2所述的一种基于子空间聚类的机械产品质量分析方法，其特征在于：所述步骤2.2中属性权重计算方法的具体步骤为：

式中反映属性值x_ki在a_i上出现的次数；

4.根据权利要求3所述的一种基于子空间聚类的机械产品质量分析方法，其特征在于：所述步骤2.3中子空间聚类方法的具体步骤为：

步骤2.3.1：各个Mapper从局部数据块上顺序读入数据点并任意选取一个数据点保存到列表SC中作为第一个子簇，以最大化簇集质量Q(C)为目标，将后续数据点依次分配给现有子簇或创建新子簇，定义簇集C＝{C₁，C₂，…，i_k}，则Q(C)可形式化表示为：