CN102945517B - 一种基于聚类分析的服装标准工时的数据挖掘方法 - Google Patents

一种基于聚类分析的服装标准工时的数据挖掘方法 Download PDF

Info

Publication number
CN102945517B
CN102945517B CN201210400843.1A CN201210400843A CN102945517B CN 102945517 B CN102945517 B CN 102945517B CN 201210400843 A CN201210400843 A CN 201210400843A CN 102945517 B CN102945517 B CN 102945517B
Authority
CN
China
Prior art keywords
data
cluster
centerdot
class
man
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210400843.1A
Other languages
English (en)
Other versions
CN102945517A (zh
Inventor
厉旗
殷俊伟
陈建明
尚笑梅
张健
乐逸朦
薛百里
汤彩凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Profit Is Convinced Completely And Is Filled Group PLC
Suzhou University
Original Assignee
Profit Is Convinced Completely And Is Filled Group PLC
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Profit Is Convinced Completely And Is Filled Group PLC, Suzhou University filed Critical Profit Is Convinced Completely And Is Filled Group PLC
Priority to CN201210400843.1A priority Critical patent/CN102945517B/zh
Publication of CN102945517A publication Critical patent/CN102945517A/zh
Application granted granted Critical
Publication of CN102945517B publication Critical patent/CN102945517B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于聚类分析的服装标准工时的数据挖掘方法,包括下列步骤:(1)数据采集:利用RFID生产系统实时记录每一个员工的工序工时,并构建数据仓库;(2)数据预处理:采用三倍标准差法去除数据集中的异常数据对象;(3)采用基于密度的K-means算法进行聚类,包括:①确定聚类数K的值和准则函数的收敛精度;②初始化聚类中心;③指派样本对象;④更新聚类中心;⑤检验是否满足收敛精度,若满足则完成聚类,否则重复步骤③至⑤直到满足收敛精度;(4)根据聚类结果把所有工时数据对象分为K类,对于每一类求其平均值,即为这一类的标准工时。本发明能自动生成标准工时,实现方便,成本低。

Description

一种基于聚类分析的服装标准工时的数据挖掘方法
技术领域
本发明属于信息技术应用领域,涉及一种在服装标准工时制定过程中利用数据挖掘技术分析工时标准的方法,尤其是基于聚类分析的数据挖掘方法。
背景技术
一直以来,服装行业是我国最具有世界竞争力的行业之一,然而其领先地位在很大程度上得益于国内极为低廉的劳动力成本优势,随着制造业信息化进程的不断深入,服装行业也从传统的劳动密集型逐渐向技术密集型和智能密集型方向转化。目前,很多服装公司都已在多方面实现了信息化,例如采购、生产、销售等,这在很大程度上提高了生产效率,降低了生产成本,缩短了产品生产周期。
在服装加工生产中有一重要度量为标准工时,即服装的工序工时,它是改善生产效率的重要手段,是制造系统规划和改善的依据,是评价作业者技能水平的依据,也是服装生产加工成本核算、加工费的主要依据,因此标准工时制定的准确与合理至关重要。目前标准工时制定的方法主要有两种,一种是人工实测法,这是现在服装企业普遍采用的方法,例如秒表法,其主要步骤为:收集资料->划分操作单元->测时->正常时间->宽放时间->标准工时,除此之外,还有经验判断法、历史记录法、MOD等,这些方法的缺点显而易见,其测量受环境和人为因素的影响,误差大,效率低,且不利于计算机服装工艺设计。另一种方法是在信息化水平较高的公司使用的,即采用一套标准工时管理系统,GSD(GeneralSewingData),中文译为通用缝纫资料,这是一种预设动作时间系统,它将缝制品环境中普遍发生的人类动作程序化,并将动作以代码方式说明,每个代码都有一个明确的时值,针对服装生产的每一个工序进行动作分解,与GSD系统中的动作匹配,从而确定出每一道工序的时值。然而目前此系统标准采用的是国际标准,其并不十分适合我国,并且各公司有各自的具体情况,这就要求GSD系统达到定制的要求,然而这是很难做到的。
发明内容
本发明的发明目的是提供一种基于聚类分析的服装标准工时的数据挖掘方法,以改进现有方法存在的操作复杂性和误差大的弊端,实现标准工时的自动生成。
为达到上述发明目的,本发明采用的技术方案是:一种基于聚类分析的服装标准工时的数据挖掘方法,包括下列步骤:
(1)数据采集:利用RFID生产系统实时记录每一个员工的工序工时,并构建数据仓库,数据仓库中的数据对象构成数据集;
(2)数据预处理:采用三倍标准差法去除数据集中的异常数据对象;
(3)采用基于密度的K-means算法进行聚类,包括:
①确定聚类数K的值和准则函数的收敛精度;
②初始化聚类中心:从数据集中选取K个数据对象作为初始聚类中心;
③指派样本对象:计算数据集中每一个数据对象到各聚类中心的距离,把数据对象指派给距离最小的类;
④更新聚类中心:将每个类当前所拥有的所有数据对象的平均值,作为每个类的更新后的聚类中心;
⑤检验是否满足收敛精度,若满足则完成聚类,否则重复步骤③至⑤直到满足收敛精度;
(4)根据聚类结果把所有工时数据对象分为K类,对于每一类求其平均值,即为这一类的标准工时。
上述技术方案中,步骤(1)中,数据对象构成的数据集表示为R={P1,P2,...,Pn},其中P1,P2,...,Pn为n个数据对象,每个数据为m维象,包含m个工时工序,整体表示为如下数据矩阵:
p 11 · · · p 1 f · · · p 1 m · · · · · · · · · · · · · · · p i 1 · · · p if · · · p im · · · · · · · · · · · · · · · p n 1 · · · p nf · · · p nm
步骤(3)中所述的距离为欧几里德距离:
d ( i , j ) = ( | p i 1 - p j 1 | 2 + | p i 2 - p j 2 | 2 + · · · + | p im - p jm | 2 ) .
实现上述方法的一种基于聚类分析的服装标准工时的数据挖掘系统,包括RFID生产系统、数据仓库、数据预处理模块、由推理机和解释系统构成的聚类分析模块、结果输出模块,其中,所述聚类分析模块采用基于密度的K-means算法进行聚类。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1.本发明通过基于聚类分析的服装标准工时的数据挖掘方法,来获取标准工时,改进了现有技术中的方法存在的操作复杂和误差大的弊端,使标准工时达到自动生成的效果。
2.本发明利用RFID生产系统实时记录采集数据,由于目前很多一身具有RFID生产系统,因而可以利用现有装置完成数据采集工作,实现方便,成本低。
3.通过本发明对工时数据的自动分类,使差距不大的工时分在同一组中,而不同组间的工时差距较大,这样就可以针对不同操作人员制定不同的标准工时,也即实现不同的工序流水线,这种方法符合实际情况,从而使生产效率大大提高。
附图说明
图1是本发明实施例一的系统架构示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:参见图1所示,一种基于聚类分析的服装标准工时的数据挖掘系统,包括RFID生产系统、数据仓库、数据预处理模块、由推理机和解释系统构成的聚类分析模块、结果输出模块,其中,所述聚类分析模块采用基于密度的K-means算法进行聚类。RFID生产系统实时记录每一个员工的工序工时,并构建数据仓库,对要进行聚类分析的数据集首先进行预处理,然后便应用聚类算法进行分析,最后推导出结果。
基于聚类分析的数据挖掘方法,对工时数据采用一个改进的基于密度的K-means算法,即在m维空间里把n个数据对象分为K个类,其算法思想是,首先由用户确定所要聚类的准确数目K,并通过一种策略初始选择K哥对象作为聚类中心,对剩余的每个对象,根据其与各中心的距离将它赋给最近的类,然后,重新计算某个类中对象的平均值形成新的聚类中心,反复进行这个过程,直到聚类收敛为止。其具体实现包括以下步骤:
(1)获取源数据,对于数据集明确空间R,并确定数据的表示方式,因为每一工时数据对象包含多个属性(多道工序),即多维数据,描述为m维数据(包含m个属性),则此m维空间R可表示为:Rm
(2)对工时数据进行预处理,剔除异常值,确定数据都是平滑正确的数据;
(3)确定初始参数,包括K的值和准则函数的收敛精度。
(4)初始聚类中心。即从数据集中选取K个数据对象作为初始聚类中心。
(5)指派样本对象。计算每一个样本到各中心的距离,把样本指派给距离最小的类。
(6)更新聚类中心。根据每个类当前所拥有的所有样本,重新计算每个类的中心。
(7)检验是否满足收敛精度,即更新中心后的样本和更新前的样本之间的差别是否小于收敛精度,若小于则停止,否则重复步骤5、6、7直到满足收敛精度。
(8)最后即可把所有工时数据对象分为K类,对于每一类求其平均值,即可作为这一类的标准工时,也可作为一流水线标准。
为了清晰地解析上述算法,做如下一些符号描述。对应于步骤(1),对获得的源数据表示为数据集R={P1,P2,...,Pn},其中P1,P2,...,Pn为n个数据对象,其中每个数据为m维象,即包含m个属性(工时工序),K示分类数,记第i(1≤i≤K)个聚类中的对象个数为Mi,并记第i(1≤i≤K)个聚类中对象组成的集合为Ii表,设c为迭代次数。
对于数据的表示采用矩阵的表示方法,对于n个m维数据对象可表示为如下数据矩阵:
p 11 · · · p 1 f · · · p 1 m · · · · · · · · · · · · · · · p i 1 · · · p if · · · p im · · · · · · · · · · · · · · · p n 1 · · · p nf · · · p nm
此算法是一种基于距离的划分算法,因此数据对象间的差异程度用对象间距离表示,此处采用欧几里德距离表示:
d ( i , j ) = ( | p i 1 - p j 1 | 2 + | p i 2 - p j 2 | 2 + · · · + | p im - p jm | 2 ) 则各对象之间的差异度也可用一差异度矩阵表示,如下:
0 d ( 2,1 ) 0 d ( 3,1 ) d ( 3,2 ) 0 · · · · · · d ( n , 1 ) d ( n , 2 ) · · · · · · 0
对于步骤(2),所获得的源数据中可能存在异常数据,即在生产过程中记录了非正常工时数据,这样的异常数据会影响聚类结果的准确性,因此,对源数据进行预处理是必需的,主要是剔除异常值。对于服装工时数据,此处采用三倍标准差法,方法如下:对所有的数据P1,P2,...,Pn,则其平均值方差正常数据是在P±3σ内,则扫描源数据对象,剔除不满足此范围的数据。
步骤(4)是此算法准确性的一个关键,即所选取的K个初始对象的合理性与最后的聚类结果有很大关系,在传统算法中,这K个对象是随机选取的,这种随机性会导致很大的偏差,例如这K个对象都选在了统一局部区域,则会产生局部最优而非全局最优的结果,本发明采用一种全局初始化的方法。此方法的详细描述如下:
给定正整数m,设P满足m-最小聚类问题,记最小聚类参数为α,数据集P的最优子集为P1,P2,...,Pk(即最理想状况下的K个聚类),则有如下定理:如果从P中随机均匀的选取个点,记取样本点集为S,那么对于所有的Pi,|S∩PL|>>1均成立的概率至少为1/2。此定理表明,对满足最小聚类问题的给定点集P,记S为从P中随机均匀选取的个点的取样点集,则S包含每个最优子集P1,P2,...,Pk中至少一个点的概率大于或等于1/2。
则根据以上定理,可先选取一个候选点集S,再从中选取K个对象点作为初始中心,此种方法可实现接近最优解的全局选取方式。从S中选取K个样本就已大大提高了精度,接下来对S以某一个概率选取不同的K个点,采用距离越大则选取概率越大的原则,具体算法如下:
通过以上便完成了步骤(4),接着进行后续步骤的迭代,后续步骤可具体描述如下:
Step1步骤(5)进行指派对象,确定初始聚类中心后,计算其他对象Pi(1≤i≤n)与每个中心Xj(1≤i≤K)的相似度,此处用它们之间的欧几里德距离表示d(Pi,Xj)。把对象Pi分配到最近的类Ij中。
Step2计算第i(1≤i≤K)个聚类的中心:
如果i=K,那么转向step3,否则i=i+1,重复此步骤。
Step3计算准则函数的值:然后转向step4。
Step4计算新的分配方式,对每一对象Pi,获得最近聚类中心:min(Pi,Zi c),则把Pi分配到第i个类中;如果i<n,那么i=i+1。令为第i(1≤i≤K)个聚类中的对象个数,且为第i(1≤i≤K)个聚类中对象组成的集合,然后转向step5。
Step5计算准则函数的值:然后转向step6。
Step6如果(收敛精度)那么停止计算;否则令i=1,c=c+1,转向step2。
对工时数据应用以上聚类分析,可得到K个聚类结果集即把工时数据分成了不同的K类,每一类里工时数据相似,则可对每一类的结果集求其均值作为标准工时。

Claims (2)

1.一种基于聚类分析的服装标准工时的数据挖掘方法,其特征在于,包括下列步骤:
(1)数据采集:利用RFID生产系统实时记录每一个员工的工序工时,并构建数据仓库,数据仓库中的数据对象构成数据集;
(2)数据预处理:采用三倍标准差法去除数据集中的异常数据对象;
(3)采用基于密度的K-means算法进行聚类,包括:
①确定聚类数K的值和准则函数的收敛精度;
②初始化聚类中心:从数据集中选取K个数据对象作为初始聚类中心;
③指派样本对象:计算数据集中每一个数据对象到各聚类中心的距离,把数据对象指派给距离最小的类;
④更新聚类中心:将每个类当前所拥有的所有数据对象的平均值,作为每个类的更新后的聚类中心;
⑤检验是否满足收敛精度,若满足则完成聚类,否则重复步骤③至⑤直到满足收敛精度;
(4)根据聚类结果把所有工时数据对象分为K类,对于每一类求其平均值,即为这一类的标准工时。
2.根据权利要求1所述的基于聚类分析的服装标准工时的数据挖掘方法,其特征在于:步骤(1)中,数据对象构成的数据集表示为R={P1,P2,…,Pn},其中P1,P2,…,Pn为n个数据对象,每个数据为m维象,包含m个工时工序,整体表示为如下数据矩阵:
步骤(3)中所述的距离为欧几里德距离:
CN201210400843.1A 2012-10-19 2012-10-19 一种基于聚类分析的服装标准工时的数据挖掘方法 Expired - Fee Related CN102945517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210400843.1A CN102945517B (zh) 2012-10-19 2012-10-19 一种基于聚类分析的服装标准工时的数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210400843.1A CN102945517B (zh) 2012-10-19 2012-10-19 一种基于聚类分析的服装标准工时的数据挖掘方法

Publications (2)

Publication Number Publication Date
CN102945517A CN102945517A (zh) 2013-02-27
CN102945517B true CN102945517B (zh) 2016-02-10

Family

ID=47728456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210400843.1A Expired - Fee Related CN102945517B (zh) 2012-10-19 2012-10-19 一种基于聚类分析的服装标准工时的数据挖掘方法

Country Status (1)

Country Link
CN (1) CN102945517B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824082A (zh) * 2014-02-25 2014-05-28 华南理工大学 一种行人检测方法及其检测系统
CN105701594A (zh) * 2015-12-17 2016-06-22 国家电网公司 用于大电网安全稳定特性和机理分析的可视化交互式系统
CN106295982B (zh) * 2016-08-05 2019-09-24 江苏现代造船技术有限公司 一种基于wbs的船舶建造标准工时数据挖掘方法
CN108733003B (zh) * 2017-04-20 2020-11-13 南京理工大学 基于kmeans聚类算法的回转类零件工序工时预测方法及系统
CN107730120A (zh) * 2017-10-19 2018-02-23 伊婕 一种服装标准工时系统
CN110084450A (zh) * 2018-01-26 2019-08-02 北京龙腾智控科技有限公司 模具设计工时评估系统及计算方法
CN110310138A (zh) * 2018-03-21 2019-10-08 腾讯科技(深圳)有限公司 一种确定用户关系的方法及装置
CN117575107B (zh) * 2024-01-15 2024-05-07 泉州装备制造研究所 一种基于分类-聚类算法的服装标准工时定额及预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101788819A (zh) * 2010-03-08 2010-07-28 清华大学 大规模生产过程一种基于迭代式分解和流松驰的调度方法
CN101794115A (zh) * 2010-03-08 2010-08-04 清华大学 一种基于规则参数全局协调优化的调度规则智能挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101788819A (zh) * 2010-03-08 2010-07-28 清华大学 大规模生产过程一种基于迭代式分解和流松驰的调度方法
CN101794115A (zh) * 2010-03-08 2010-08-04 清华大学 一种基于规则参数全局协调优化的调度规则智能挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王赛芳等.基于初始聚类中心优化的K-均值算法.《计算机工程与科学》.2010,第32卷(第10期),105-107,116. *
邓志远.飞机维修过程中工时管理的应用.《价值工程》.2010,(第28期),80-81. *

Also Published As

Publication number Publication date
CN102945517A (zh) 2013-02-27

Similar Documents

Publication Publication Date Title
CN102945517B (zh) 一种基于聚类分析的服装标准工时的数据挖掘方法
Ru et al. Interpretable neural architecture search via bayesian optimisation with weisfeiler-lehman kernels
CN110580501B (zh) 一种基于变分自编码对抗网络的零样本图像分类方法
Yu et al. Fuzzy support vector machine with relative density information for classifying imbalanced data
Chen et al. Multi-fault diagnosis study on roller bearing based on multi-kernel support vector machine with chaotic particle swarm optimization
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
US7889914B2 (en) Automated learning of model classifications
Lin et al. Machine learning templates for QCD factorization in the search for physics beyond the standard model
CN106295692A (zh) 基于降维与支持向量机的产品早期故障根原因识别方法
CN106067034A (zh) 一种基于高维矩阵特征根的配电网负荷曲线聚类方法
CN111177216A (zh) 综合能源消费者行为特征的关联规则生成方法及装置
CN106022359A (zh) 基于有序信息熵的模糊熵空间聚类分析方法
CN113505465B (zh) 完全无监督的非侵入式电器状态模型自适应构建方法
CN110232397A (zh) 一种结合支持向量机和投影矩阵的多标签分类方法
Bashar et al. Algan: Time series anomaly detection with adjusted-lstm gan
CN103295007B (zh) 一种用于汉字识别的特征降维优化方法
Salem et al. A computational cost-effective clustering algorithm in multidimensional space using the manhattan metric: application to the global terrorism database
CN111090679A (zh) 基于时序影响和图嵌入的时序数据表示学习方法
Qin Software reliability prediction model based on PSO and SVM
Gkoutroumpi et al. SGAN: Appliance Signatures Data Generation for NILM Applications Using GANs
Giang et al. Skeleton based shape matching using reweighted random walks
Hu et al. An improved possibilistic clustering based on differential algorithm
Yang et al. MTSC-GE: A novel graph based method for multivariate time series clustering
Shi et al. A study of support vector regression-based fuzzy c-means algorithm on incomplete data clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160210

Termination date: 20211019

CF01 Termination of patent right due to non-payment of annual fee