CN102945517A

CN102945517A - 一种基于聚类分析的服装标准工时的数据挖掘方法

Info

Publication number: CN102945517A
Application number: CN2012104008431A
Authority: CN
Inventors: 厉旗; 殷俊伟; 陈建明; 尚笑梅; 张健; 乐逸朦; 薛百里; 汤彩凤
Original assignee: Profit Is Convinced Completely And Is Filled Group PLC; Suzhou University
Current assignee: Profit Is Convinced Completely And Is Filled Group PLC; Suzhou University
Priority date: 2012-10-19
Filing date: 2012-10-19
Publication date: 2013-02-27
Anticipated expiration: 2032-10-19
Also published as: CN102945517B

Abstract

本发明公开了一种基于聚类分析的服装标准工时的数据挖掘方法，包括下列步骤：(1)数据采集：利用RFID生产系统实时记录每一个员工的工序工时，并构建数据仓库；(2)数据预处理：采用三倍标准差法去除数据集中的异常数据对象；(3)采用基于密度的K-means算法进行聚类，包括：①确定聚类数K的值和准则函数的收敛精度；②初始化聚类中心；③指派样本对象；④更新聚类中心；⑤检验是否满足收敛精度，若满足则完成聚类，否则重复步骤③至⑤直到满足收敛精度；(4)根据聚类结果把所有工时数据对象分为K类，对于每一类求其平均值，即为这一类的标准工时。本发明能自动生成标准工时，实现方便，成本低。

Description

一种基于聚类分析的服装标准工时的数据挖掘方法

技术领域

本发明属于信息技术应用领域，涉及一种在服装标准工时制定过程中利用数据挖掘技术分析工时标准的方法，尤其是基于聚类分析的数据挖掘方法。

背景技术

一直以来，服装行业是我国最具有世界竞争力的行业之一，然而其领先地位在很大程度上得益于国内极为低廉的劳动力成本优势，随着制造业信息化进程的不断深入，服装行业也从传统的劳动密集型逐渐向技术密集型和智能密集型方向转化。目前，很多服装公司都已在多方面实现了信息化，例如采购、生产、销售等，这在很大程度上提高了生产效率，降低了生产成本，缩短了产品生产周期。

在服装加工生产中有一重要度量为标准工时，即服装的工序工时，它是改善生产效率的重要手段，是制造系统规划和改善的依据，是评价作业者技能水平的依据，也是服装生产加工成本核算、加工费的主要依据，因此标准工时制定的准确与合理至关重要。目前标准工时制定的方法主要有两种，一种是人工实测法，这是现在服装企业普遍采用的方法，例如秒表法，其主要步骤为：收集资料->划分操作单元->测时->正常时间->宽放时间->标准工时，除此之外，还有经验判断法、历史记录法、MOD等，这些方法的缺点显而易见，其测量受环境和人为因素的影响，误差大，效率低，且不利于计算机服装工艺设计。另一种方法是在信息化水平较高的公司使用的，即采用一套标准工时管理系统，GSD（General Sewing Data），中文译为通用缝纫资料，这是一种预设动作时间系统，它将缝制品环境中普遍发生的人类动作程序化，并将动作以代码方式说明，每个代码都有一个明确的时值，针对服装生产的每一个工序进行动作分解，与GSD系统中的动作匹配，从而确定出每一道工序的时值。然而目前此系统标准采用的是国际标准，其并不十分适合我国，并且各公司有各自的具体情况，这就要求GSD系统达到定制的要求，然而这是很难做到的。

发明内容

本发明的发明目的是提供一种基于聚类分析的服装标准工时的数据挖掘方法，以改进现有方法存在的操作复杂性和误差大的弊端，实现标准工时的自动生成。

为达到上述发明目的，本发明采用的技术方案是：一种基于聚类分析的服装标准工时的数据挖掘方法，包括下列步骤：

(1)数据采集：利用RFID生产系统实时记录每一个员工的工序工时，并构建数据仓库，数据仓库中的数据对象构成数据集；

(2)数据预处理：采用三倍标准差法去除数据集中的异常数据对象；

(3)采用基于密度的K-means算法进行聚类，包括：

①确定聚类数K的值和准则函数的收敛精度；

②初始化聚类中心：从数据集中选取K个数据对象作为初始聚类中心；

③指派样本对象：计算数据集中每一个数据对象到各聚类中心的距离，把数据对象指派给距离最小的类；

④更新聚类中心：将每个类当前所拥有的所有数据对象的平均值，作为每个类的更新后的聚类中心；

⑤检验是否满足收敛精度，若满足则完成聚类，否则重复步骤③至⑤直到满足收敛精度；

(4)根据聚类结果把所有工时数据对象分为K类，对于每一类求其平均值，即为这一类的标准工时。

上述技术方案中，步骤(1)中，数据对象构成的数据集表示为R={P₁，P₂，...,P_n}，其中P₁，P₂，...,P_n为n个数据对象，每个数据为m维象，包含m个工时工序，整体表示为如下数据矩阵：

[\begin{matrix} p_{11} & \cdot \cdot \cdot & p_{1 f} & \cdot \cdot \cdot & p_{1 m} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ p_{i 1} & \cdot \cdot \cdot & p_{if} & \cdot \cdot \cdot & p_{im} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ p_{n 1} & \cdot \cdot \cdot & p_{nf} & \cdot \cdot \cdot & p_{nm} \end{matrix}]

步骤(3)中所述的距离为欧几里德距离：

d (i, j) = \sqrt{({| p_{i_{1}} - p_{j_{1}} |}^{2} + {| p_{i_{2}} - p_{j_{2}} |}^{2} + \cdot \cdot \cdot + {| p_{im} - p_{jm} |}^{2})} .

实现上述方法的一种基于聚类分析的服装标准工时的数据挖掘系统，包括RFID生产系统、数据仓库、数据预处理模块、由推理机和解释系统构成的聚类分析模块、结果输出模块，其中，所述聚类分析模块采用基于密度的K-means算法进行聚类。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1.本发明通过基于聚类分析的服装标准工时的数据挖掘方法，来获取标准工时，改进了现有技术中的方法存在的操作复杂和误差大的弊端，使标准工时达到自动生成的效果。

2.本发明利用RFID生产系统实时记录采集数据，由于目前很多一身具有RFID生产系统，因而可以利用现有装置完成数据采集工作，实现方便，成本低。

3.通过本发明对工时数据的自动分类，使差距不大的工时分在同一组中，而不同组间的工时差距较大，这样就可以针对不同操作人员制定不同的标准工时，也即实现不同的工序流水线，这种方法符合实际情况，从而使生产效率大大提高。

附图说明

图1是本发明实施例一的系统架构示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：参见图1所示，一种基于聚类分析的服装标准工时的数据挖掘系统，包括RFID生产系统、数据仓库、数据预处理模块、由推理机和解释系统构成的聚类分析模块、结果输出模块，其中，所述聚类分析模块采用基于密度的K-means算法进行聚类。RFID生产系统实时记录每一个员工的工序工时，并构建数据仓库，对要进行聚类分析的数据集首先进行预处理，然后便应用聚类算法进行分析，最后推导出结果。

基于聚类分析的数据挖掘方法，对工时数据采用一个改进的基于密度的K-means算法，即在m维空间里把n个数据对象分为K个类，其算法思想是，首先由用户确定所要聚类的准确数目K，并通过一种策略初始选择K哥对象作为聚类中心，对剩余的每个对象，根据其与各中心的距离将它赋给最近的类，然后，重新计算某个类中对象的平均值形成新的聚类中心，反复进行这个过程，直到聚类收敛为止。其具体实现包括以下步骤：

（1）获取源数据，对于数据集明确空间R，并确定数据的表示方式，因为每一工时数据对象包含多个属性（多道工序），即多维数据，描述为m维数据（包含m个属性），则此m维空间R可表示为：R^m。

（2）对工时数据进行预处理，剔除异常值，确定数据都是平滑正确的数据；

（3）确定初始参数，包括K的值和准则函数的收敛精度。

（4）初始聚类中心。即从数据集中选取K个数据对象作为初始聚类中心。

（5）指派样本对象。计算每一个样本到各中心的距离，把样本指派给距离最小的类。

（6）更新聚类中心。根据每个类当前所拥有的所有样本，重新计算每个类的中心。

（7）检验是否满足收敛精度，即更新中心后的样本和更新前的样本之间的差别是否小于收敛精度，若小于则停止，否则重复步骤5、6、7直到满足收敛精度。

（8）最后即可把所有工时数据对象分为K类，对于每一类求其平均值，即可作为这一类的标准工时，也可作为一流水线标准。

为了清晰地解析上述算法，做如下一些符号描述。对应于步骤（1），对获得的源数据表示为数据集R={P₁，P₂，...,P_n},其中P₁，P₂，...,P_n为n个数据对象，其中每个数据为m维象，即包含m个属性（工时工序），K示分类数，记第i（1≤i≤K）个聚类中的对象个数为M_i,并记第i（1≤i≤K）个聚类中对象组成的集合为I_i表,设c为迭代次数。

对于数据的表示采用矩阵的表示方法，对于n个m维数据对象可表示为如下数据矩阵：

[\begin{matrix} p_{11} & \cdot \cdot \cdot & p_{1 f} & \cdot \cdot \cdot & p_{1 m} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ p_{i 1} & \cdot \cdot \cdot & p_{if} & \cdot \cdot \cdot & p_{im} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ p_{n 1} & \cdot \cdot \cdot & p_{nf} & \cdot \cdot \cdot & p_{nm} \end{matrix}]

此算法是一种基于距离的划分算法，因此数据对象间的差异程度用对象间距离表示，此处采用欧几里德距离表示：

d (i, j) = \sqrt{({| p_{i_{1}} - p_{j_{1}} |}^{2} + {| p_{i_{2}} - p_{j_{2}} |}^{2} + \cdot \cdot \cdot + {| p_{im} - p_{jm} |}^{2})}

则各对象之间的差异度也可用一差异度矩阵表示，如下：

[\begin{matrix} 0 \\ d (2,1) & 0 \\ d (3,1) & d (3,2) & 0 \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \\ d (n, 1) & d (n, 2) & \cdot & \cdot & \cdot & \cdot & \cdot & \cdot & 0 \end{matrix}]

对于步骤（2），所获得的源数据中可能存在异常数据，即在生产过程中记录了非正常工时数据，这样的异常数据会影响聚类结果的准确性，因此，对源数据进行预处理是必需的，主要是剔除异常值。对于服装工时数据，此处采用三倍标准差法，方法如下：对所有的数据P₁，P₂，...,P_n，则其平均值方差

Figure 2012104008431100002DEST_PATH_IMAGE002

正常数据是在P±3σ内，则扫描源数据对象，剔除不满足此范围的数据。

步骤（4）是此算法准确性的一个关键，即所选取的K个初始对象的合理性与最后的聚类结果有很大关系，在传统算法中，这K个对象是随机选取的，这种随机性会导致很大的偏差，例如这K个对象都选在了统一局部区域，则会产生局部最优而非全局最优的结果，本发明采用一种全局初始化的方法。此方法的详细描述如下：

给定正整数m，设P满足m-最小聚类问题，记最小聚类参数为α，数据集P的最优子集为P₁，P₂，...,P_k(即最理想状况下的K个聚类)，则有如下定理：如果从P中随机均匀的选取个点，记取样本点集为S，那么对于所有的Pi，|S∩PL|＞＞1均成立的概率至少为1/2。此定理表明，对满足最小聚类问题的给定点集P，记S为从P中随机均匀选取的

个点的取样点集，则S包含每个最优子集P₁，P₂，...,P_k中至少一个点的概率大于或等于1/2。

则根据以上定理，可先选取一个候选点集S，再从中选取K个对象点作为初始中心，此种方法可实现接近最优解的全局选取方式。从S中选取K个样本就已大大提高了精度，接下来对S以某一个概率选取不同的K个点，采用距离越大则选取概率越大的原则，具体算法如下：

Figure 2012104008431100002DEST_PATH_IMAGE004

通过以上便完成了步骤（4），接着进行后续步骤的迭代,后续步骤可具体描述如下：

Step1步骤（5）进行指派对象，确定初始聚类中心后，计算其他对象Pi(1≤i≤n)与每个中心Xj(1≤i≤K)的相似度，此处用它们之间的欧几里德距离表示d(Pi,Xj)。把对象Pi分配到最近的类Ij中。

Step2计算第i（1≤i≤K）个聚类的中心：

如果i=K,那么转向step3，否则i=i+1,重复此步骤。

Step3计算准则函数的值：

然后转向step4。

Step4计算新的分配方式，对每一对象Pi，获得最近聚类中心：min(P_i,Z_i ^c)，则把Pi分配到第i个类中；如果i<n,那么i=i+1。令

为第i（1≤i≤K）个聚类中的对象个数，且

为第i（1≤i≤K）个聚类中对象组成的集合，然后转向step5。

Step5计算准则函数的值：

然后转向step6。

Step6如果 (收敛精度)那么停止计算；否则令i=1,c=c+1，转向step2。

对工时数据应用以上聚类分析，可得到K个聚类结果集

即把工时数据分成了不同的K类，每一类里工时数据相似，则可对每一类的结果集求其均值

作为标准工时。