CN109597968B - 基于smt大数据的锡膏印刷性能影响因素分析方法 - Google Patents
基于smt大数据的锡膏印刷性能影响因素分析方法 Download PDFInfo
- Publication number
- CN109597968B CN109597968B CN201811645536.3A CN201811645536A CN109597968B CN 109597968 B CN109597968 B CN 109597968B CN 201811645536 A CN201811645536 A CN 201811645536A CN 109597968 B CN109597968 B CN 109597968B
- Authority
- CN
- China
- Prior art keywords
- correlation
- printing
- solder paste
- degree
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007639 printing Methods 0.000 title claims abstract description 221
- 229910000679 solder Inorganic materials 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000000556 factor analysis Methods 0.000 title claims abstract description 13
- 238000007637 random forest analysis Methods 0.000 claims abstract description 56
- 238000012360 testing method Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 12
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 claims description 11
- 238000004519 manufacturing process Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 16
- 238000005516 engineering process Methods 0.000 abstract description 15
- 230000006872 improvement Effects 0.000 abstract description 5
- 238000005457 optimization Methods 0.000 abstract description 5
- 238000001914 filtration Methods 0.000 abstract description 4
- 238000012163 sequencing technique Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010219 correlation analysis Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013401 experimental design Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010030 laminating Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000005476 soldering Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Electric Connection Of Electric Components To Printed Circuits (AREA)
Abstract
本发明提出一种基于SMT大数据的锡膏印刷性能影响因素分析方法,解决了锡膏印刷性能影响因素分析中分析不全面、精度低的问题。实现步骤有:采集锡膏印刷参数和性能指标构建锡膏印刷数据集;用马氏距离和空值处理数据;计算特征间相关系数,过滤冗余特征;划分训练和测试样本集;随机抽取部分特征并构建随机森林模型;设定模型终止条件;以模型均方误差增加量估计特征重要度分数,并排序;确定关键影响因素子集。本发明通过随机森林特征选择结合大数据处理技术挖掘SMT锡膏印刷性能的关键影响因素,确定性能指标与印刷参数的关联,优化锡膏印刷性能,提升电路板印刷质量。用于表面贴装技术锡膏印刷过程的工艺优化和锡膏印刷性能改善。
Description
技术领域
本发明属于表面贴装技术(SMT)领域,主要涉及表面贴装生产线中的锡膏印刷性能的分析与挖掘,具体是一种基于SMT大数据的锡膏印刷性能影响因素分析方法,应用于电路板的锡膏印刷性能的改善以及为其工艺优化提供参考依据。
背景技术
随着经济发展,市场对电子产品的要求越来越高,贴装器件更扁平化、微细化,印刷电路板组装尺寸也越来越小,焊盘排布越来越高密,因此,对表面贴装技术提出了更高的要求。表面贴装技术主要包括锡膏印刷、元件贴装和回流焊接三道主要工序,其中,锡膏印刷是首要环节,也是最为关键的一步操作。据分析,约70%SMT产品的质量问题都是由锡膏印刷性能不佳所导致的。
表面贴装技术中印刷电路板的锡膏印刷操作复杂,涉及到的设备、物料和人员难以控制,印刷过程中任意一个环节都可能因为把控不当导致表面贴装产品的质量问题,造成产品无法通过检测,造成资源浪费,影响企业效益。
当前表面贴装技术中,锡膏印刷主要存在以下问题:①锡膏印刷过程复杂,印刷参数种类繁复,且参数间彼此影响,存在交互关系。随着智能生产线的应用,SMT工艺中的设备都被全自动化高端设备所替代,使得导致印刷不良的影响因素更加复杂和隐蔽,难以分析;②随着长期生产,锡膏印刷机积累了大量锡膏印刷的过程数据,这些数据具有大数据的高维性和数据类型多样的特点,给数据的处理和分析也构成了一定的挑战。
针对上述问题,彭杰在其硕士论文“田口试验设计的改进及其在钢板印刷制程中的应用”(武汉理工大学,2008)提出了一种改进的田口试验设计方法分析影响锡膏印刷过程中锡膏厚度的参数及其最佳设置,引入检验因子,对正交表进行修改,建立完善的检验体系来构造改进型田口试验设计。但该方法的不足之处是:影响因素范围局限于试验因素水平组合,而且,在实际生产中,部分参数取值区间是连续的,并不适用于试验设计中的因素水平选取。基于数据挖掘和机器学习的锡膏印刷性能影响因素分析方法近年来应用十分广泛,例如赵媚在其硕士论文“锡膏印刷过程两阶段参数优化方法”(上海交通大学,2010)提出了一种基于响应曲面法的影响因素分析方法,量化关键影响因素的影响程度,避免了因素不显著问题。但该方法分析的因素范围主要限定在工艺参数和用料方面,忽略了印刷状态参数和环境等方面的影响,没有对关键影响因素进行重要度排序,而且没有将锡膏的五个性能指标(锡膏体积、面积、高度、X偏位和Y偏位)同时纳入研究,检测数据应用不充分。
特征选择是将所有采集到的特征属性作为输入,选取能够对目标变量产生较高拟和精度的关键影响因素子集。特征选择主要有三类方式:过滤、嵌入和包裹。过滤方法是先对影响因素集进行选择,给出原始影响因素集中影响程度的排序,然后选取影响程度较大的特征,关键影响因素个数可以根据某种原则选定;嵌入方法是将特征子集选择过程与分类或预测模型训练过程融合,在同步优化过程中完成对关键影响因素的选取,同时给出目标变量的分类或预测结果;包裹方法是直接将模型学习性能作为评价标准选取影响因素,该方法的目的是更好的提供误差最小的影响因素子集,使得分类或回归误差最小。随机森林是一种目前较为流行的决策树集成学习的算法,具有计算复杂度低,对噪声更加鲁棒和容易实现等优势。对于回归问题,随机森林根据平均模型拟合误差来进行特征子集选取,而对于分类问题,根据分类准确率来选择特征。
表面贴装技术的工艺专家和研究者从主要实验设计和数据挖掘分析两种角度进行了有益的尝试。能够在一定程度上确定影响因素,进而提升锡膏印刷性能,节约成本。但是,实验设计的影响因素分析方法成本过高,同时该方法不适用于取值区间连续的印刷参数因素水平选取。现有的结合数据挖掘进行锡膏性能影响因素分析的方法,以拟合锡膏性能指标与印刷参数关系表达式为核心,但关系式较为简单,同时依赖主观经验,难以客观准确的描述印刷参数与锡膏性能指标的关系。并且锡膏的印刷参数有数值型与类别型两种类型,模型中没有对两种类型的印刷参数处理进行考虑,分析不够全面,分析结果不能准确地反映关键影响因素。
发明内容
本发明的目的在于克服上述方法存在的缺陷和不足,提出了一种贴合生产实际、分析更为全面、准确的基于SMT大数据的锡膏印刷性能影响因素分析方法。
本发明是一种基于SMT大数据的锡膏印刷性能影响因素分析方法,其特征在于,影响因素分析过程涉及到锡膏印刷参数,印刷性能指标以及关键影响因素选取和排序,具体步骤包括有:
(1)采集数据并构建数据集:采集锡膏印刷过程数据并形成锡膏印刷数据集,该数据集包括印刷参数和性能指标两部分,印刷参数指生产过程中采集到的各类属性变量,性能指标指检测设备检测到的锡膏形态参数,其中性能指标为目标变量;数据样本为数据集中印刷电路板上一个位置对应的印刷参数及锡膏形态参数;
(2)数据处理:计算数据样本间马氏距离,检测偏离分布形状区域的离群点,对于离散取值的属性,根据业务机理来检测离群点,然后移除缺失程度超过25%的属性,对于个别缺失值,根据分布特点进行填补;
(3)计算各影响因素间的相关性,剔除冗余印刷参数:印刷参数有数值型和类别型两类印刷参数特征,计算各数值型印刷参数特征之间的相关系数,类别型与数值型印刷参数特征之间的相关率,以及类别型印刷参数特征之间的克莱姆相关系数,度量各个印刷参数特征间的关联程度,同时结合锡膏印刷专家经验与业务逻辑剔除构建的数据集中冗余的影响因素;
(4)对数据集中的数据样本进行有放回的随机抽样,划分训练样本集与测试样本集:根据删除冗余印刷参数特征后的数据集,随机抽取部分样本,抽取多次,构成多个训练样本集,用于构建多棵回归树,训练样本集简称为训练集;每次未被抽取的数据则为袋外测试数据,构成对应回归树的测试样本集,测试样本集简称为测试集;
(5)对数据集中的印刷参数特征进行随机抽样,构建随机森林回归树:给定训练样本集,随机抽取其中部分印刷参数作为回归树的特征,以锡膏的形态参数作为目标变量构建回归树,所有的回归树构建完成即是随机森林模型构建完成;
(6)设定随机森林构建的终止条件:每棵回归树不进行任何修剪,使其完全增长,通过设定回归树的数量作为随机森林构建的终止条件;
(7)计算锡膏印刷参数特征的重要度分数:当依次移除每个印刷参数特征时,通过计算随机森林模型内各回归树的拟合误差增大的百分比,即计算回归树在各测试样本集上的均方误差的变化,得到被移除的印刷参数特征重要度分数;
(8)锡膏印刷性能影响因素排序以及关键因素子集选取:锡膏印刷性能影响因素排序根据印刷参数特征重要度分数来进行排序的,特征重要度分数越高,该特征对目标变量即印刷形态参数的影响程度就越大;而锡膏印刷性能关键影响因素子集是根据关键因素子集选取模型确定,锡膏印刷性能关键影响因素子集即为锡膏印刷性能的关键影响因素。
本发明能有效地挖掘锡膏印刷性能的影响因素,指导工艺人员优化锡膏印刷性能,提升印刷质量。
本发明与现有技术相比,具有以下优点:
(1)SMT大数据具有类型多样和量级大的特点,本发明通过采用空值处理和样本间马氏距离检测等数据处理技术能有效避免算法对噪声和缺失样本敏感的问题,确保良好的模型输出结果。
(2)针对SMT生产过程印刷参数间相关性强,而随机森林算法不能分析特征间相关性的特点,本发明通过影响因素间相关性计算来删除冗余的特征,优化随机森林算法的分析结果,以获得更准确的锡膏性能指标的影响因素;
(3)通过随机森林模型得到的印数参数重要度分数,只能确定各印刷参数对锡膏性能指标的影响程度排序,而本发明通过按照重要度得分排序逐步删除特征,得到使性能指标的拟合误差最低时的特征,即关键特征,免除了人工操作对关键影响因素选取的影响。
(4)本发明的方法能够同时处理数值型与类别型印刷参数,更为准确、全面的分析影响锡膏印刷性能的印刷参数特征。
附图说明
图1是本发明的整体方法流程图;
图2是本发明中随机森林回归树生成图;
图3是本发明中关键影响因素挖掘步骤图;
图4是本发明中离群点检测图;
图5是本发明中性能指标拟合误差图。
具体实施方式
下面将结合附图和具体实例,对本发明作详细说明。
实施例1
目前锡膏印刷性能影响因素分析的方法主要包括生产经验、实验设计、统计方法和数据挖掘等。大部分都是根据经验选定了一个影响因素范围,然后进行量化分析判断其影响程度和交互作用。运用的分析方法成本较高,耗时长,同时运用拟合关系式的数据挖掘方法主观性过强,难以客观准确地反映锡膏印刷性能指标与印刷参数的复杂关系,同时现有的模型难以同时将数值型和类别型印刷参数特征纳入影响因素分析过程,漏掉了一些影响锡膏印刷性能的重要参数。
本发明针对锡膏印刷过程中质量性能指标进行影响因素挖掘,主要是以锡膏印刷要素、工艺参数、运行工况数据、印刷状态数据、设备参数和最后锡膏形态检测的主要性能指标为目标,通过大数据处理技术和特征选择方法挖掘出影响锡膏印刷性能的关键影响因素,然后根据随机森林特征重要度评价准则进行一定的选择与评价,确定与性能指标有关联的生产参数,参见图1,具体步骤包括有:
(1)采集数据并构建数据集:采集锡膏印刷过程数据并形成锡膏印刷数据集,该数据集包括印刷参数和性能指标两部分,印刷参数指生产过程中采集到的各类属性变量,属性变量包括有:PCB属性参数、印刷要素、印刷工艺参数、印刷过程状态参数和环境参数五类数据,性能指标指检测设备检测到的锡膏形态参数,形态参数包括有:锡膏体积、面积、高度和X/Y偏位五个指标,其中性能指标为目标变量;数据样本为数据集中印刷电路板上一个位置对应的印刷参数及锡膏形态参数。
(2)数据处理:计算数据样本间马氏距离,检测偏离分布形状区域的离群点,对于离散取值的属性,根据业务机理来检测离群点,然后移除缺失程度超过25%的属性,对于个别缺失值,根据分布特点进行填补。为影响因素分析提供更为合适的数据集,提高分析结果的准确性。
(3)计算各影响因素间的相关性,剔除冗余印刷参数:印刷参数有数值型和类别型两类印刷参数特征,计算各数值型印刷参数特征之间的相关系数,类别型与数值型印刷参数特征之间的相关率,以及类别型印刷参数特征之间的克莱姆相关系数,度量各个印刷参数特征间的关联程度,同时结合锡膏印刷专家经验与业务逻辑剔除构建的数据集中冗余的影响因素。相关性分析为随机森林模型提供更为精简的印刷参数特征,提高影响因素分析结果的准确性。
(4)对数据集中的数据样本进行有放回的随机抽样,划分训练样本集与测试样本集:根据删除冗余印刷参数特征后的数据集,若数据集样本为N条,每次抽取M条数据样本(M≤N),随机抽取k次,构成k棵回归树各自的训练样本集,训练样本集简称为训练集。每次未被抽取的(N-M)条数据则成为袋外测试数据,构成对应回归树的测试样本集,测试样本集简称为测试集。本发明随机抽取样本保证了回归树之间的独立性,确保针对锡膏性能指标构建的随机森林模型能够准确反映锡膏印刷参数与锡膏性能指标的关系。
(5)对数据集中的印刷参数特征进行随机抽样,构建随机森林回归树:给定训练样本集,随机抽取其中部分印刷参数作为回归树的特征,假定有一共有d个属性,每次随机抽取f个特征(f≤d),抽取特征的个数不能太少,太少会使得单个决策树的精度过低,而选取特征太多会加强树之间的相关性,降低独立性。通常选取特征的数目f=log2d+1或f=d/3,其中d是输入总特征数。以锡膏的形态参数作为目标变量构建回归树,所有的回归树构建完成即是随机森林模型构建完成。随机森林模型中每棵树的构建都是独立的,因此具有天生的并行性,可大大减少随机森林的训练时间。且各回归树服从独立同分布,随机森林不会因构建回归树数目加多而产生过拟合的问题,反而收敛到更低的泛化误差。保证了针对锡膏印刷性能指标的随机森林模型精确、泛化性能高。
(6)设定随机森林构建的终止条件:每棵回归树不进行任何修剪,使其完全增长,通过设定回归树的数量作为随机森林构建的终止条件。高精度的随机森林模型需要回归树间相关性较低,这一要求通过不仅需要有放回的随机抽样,同时也对回归树的数量有一定的要求。通过设置较大的回归树数量,提高随机森林模型的精度。
(7)计算锡膏印刷参数特征的重要度分数:当依次移除每个印刷参数特征时,通过计算随机森林模型内各回归树的拟合误差增大的百分比,即计算回归树在各测试样本集上的均方误差的变化,得到被移除的印刷参数特征重要度分数。印刷参数特征重要度分数能够清晰反映影响锡膏印刷性能的影响因素的重要程度。
(8)锡膏印刷性能影响因素排序以及关键因素子集选取:锡膏印刷性能影响因素排序根据印刷参数特征重要度分数来进行排序的,特征重要度分数越高,该特征对目标变量即印刷形态参数的影响程度就越大;而锡膏印刷性能关键影响因素子集是根据关键因素子集选取模型确定,锡膏印刷性能关键影响因素子集即为锡膏印刷性能的关键影响因素。
本发明主要以SMT锡膏印刷性能指标为目标变量,采用相关性分析和数据样本间距离度量对属性因素进行冗余剔除和异常检测,通过随机森林特征选择建立锡膏印刷性能影响因素分析模型,根据特征重要度评分进行排序,然后通过指标拟合误差得到影响印刷性能的影响因素子集,最后综合分析五个指标得到关键因素。
实施例2
基于SMT大数据的锡膏印刷性能影响因素分析方法同实施例1,本发明步骤(2)所述的基于数据样本间马氏距离检测离群点是通过计算数据样本点之间的马氏距离来检验样本间的邻近度,它对比欧几里得距离的优势在于马氏距离会考虑分布的形状,而不单单计算点到分布中心的距离。例如,对于椭圆分布的数据属性,短边附近的点虽然离分布中心近,但它可能更偏离整体分布形状区域。
对于锡膏印刷数据集X中两个不同的数据样本组成的行向量x和y,马氏距离计算如下式所示:
其中d表示样本x和y间的马氏距离,S-1表示锡膏印刷数据集X的协方差矩阵的逆;
如果两个样本之间服从独立同分布,协方差矩阵是单位矩阵,则公式转化为:
样本间马氏距离的计算结果不受特征尺度的影响,可以计算n维空间数据样本之间的邻近度,检测偏离分布的离群点;在做样本分类时,估算样本间相似性有助于分类。
因为锡膏印刷过程数据类型多样、数据量级大,本发明通过采用空值处理和样本间马氏距离检测等数据处理技术能有效避免算法对噪声和缺失样本敏感的问题,确保良好的模型输出结果。
实施例3
基于SMT大数据的锡膏印刷性能影响因素分析方法同实施例1-2,本发明步骤(3)所述的计算各影响因素间的相关性包括三种方式:数值型和数值型印刷参数特征的相关性计算、数值型与类别型印刷参数特征的相关率计算以及类别型印刷参数特征之间的克莱姆相关系数计算,不同的属性相关性计算有不同的计算方式,具体计算如下:
(3.1)计算相关系数
相关系数可用于度量数值型数据属性之间的关联程度,对于两个印刷参数特征x和y,相关系数的计算公式如下所示:
其中,rx,y表示印刷参数x和y的相关系数,cov(x,y)表示特征x和y之间的协方差,σx表示特征x的标准差,σy表示特征y的标准差。
相关程度的评价标准如表1所示:
表1相关程度评价标准
若两个数值型数据属性之间的相关程度很高,相关系数会越接近1,相关程度越低,相关系数会更接近0。若相关系数为0,则两个属性直接完全不相关。一般意义上,相关系数表示的是数值型属性之间的线性相关关系。
(3.2)计算相关率
相关率可用于度量数值型属性和分类属性之间的关联程度,相关率的计算公式如下所示:
相关率的评价标准如表2所示:
表2相关率评价标准
(3.3)计算克莱姆相关系数
克莱姆相关系数也叫做克莱姆关联系数,用于度量分类属性之间的相关程度。假定属性一有n种取值(类别),属性二有m种取值(类别),则定义{ai,bj}为类别对,表示在属性一取值为ai时,属性二取值为bj,其中i={1,2,…,n},j={1,2,…,m};N(ai,bj)表示该类别对的个数;N(ai)和N(bj)分别表示ai,bj的样本数;C表示数据总条数。
期望次数Q(ai,bj)计算如下:
差异值Differ(ai,bj)计算如下:
皮尔森的卡方统计量χ2是所有可能的类别对差异值之和,如下式所示:
克莱姆相关系数为:
克莱姆相关系数的评价标准如表3所示:
表3克莱姆相关系数评价标准
针对两个印刷参数特征,若两个属性之间的相关程度很高,相关系数(或相关率)会越接近1,相关程度越低,相关系数(或相关率)会更接近0。若相关系数(或相关率)为0,则两个属性直接完全不相关。一般意义上,相关系数表示的是数值型属性之间的线性相关关系。
锡膏印刷过程中有部分印刷参数间相关性强,直接将处理过后的数据带入随机森林算法,难以删除这些冗余的特征,这样分析得到的影响因素难以真实反映锡膏印刷性能指标与印刷参数的关系。
现有锡膏印刷分析方法中未考虑同时将数值型与类别型印刷参数,本发明中的相关性分析包括:相关系数的计算、相关率的计算、克莱姆相关系数计算综合起来能够同时处理数值型与类别型印刷参数,为随机森林模型提供准确、全面的印刷参数特征。
实施例4
基于SMT大数据的锡膏印刷性能影响因素分析方法同实施例1-3,本发明步骤(7)所述的特征重要度分数是选择影响因素的评价标准,当依次移除每个特征属性时,随机森林内各回归树拟合误差增大的百分比,即每个特征被删除时,通过计算袋外数据(测试样本集)上的均方误差的变化来得到该分数,具体步骤包括:
(7.1)对k个训练样本集建立k棵回归树,在对应的测试集上进行预测,得到k棵回归树的k个均方误差:分别为M1,M2,…,Mk;
其中,随机森林回归模型内各回归树的均方误差MSE:等于预测值与实际值差值的平方和与测试样本量之比,假定回归树的测试集数据样本量为m,则其均方误差MSE为:
其中,yi是测试集中锡膏印刷形态参数的真实值,yi *是回归树得到的锡膏印刷形态参数的预测值。
(7.2)由于回归树分枝时,特征是随机抽取的,所以特征Xi在k个测试集中随机置换,形成新的测试集,用已建立的随机森林模型的回归树在对应的新测试集上进行计算,得到新的均方误差,组成如下矩阵:
其中,矩阵的每一个元素Mij表示在置换了第i个特征Xi的第j个测试集上的均方误差。
(7.3)计算特征重要度分数Importance,对特征Xi,将M1,M2,…,Mk与新均方误差矩阵第i行相减,除以回归树个数k,即得到特征重要度分数,如下所示:
其中,1≤i≤d。
实施例5
基于SMT大数据的锡膏印刷性能影响因素分析方法同实施例1-4,步骤(8)中所述的关键因素选择模型是根据随机森林模型均方误差递减程度来选取的,其具体内容为:假设有k个特征,按照印刷参数特征的重要度排序,从重要度低的特征开始,逐步删除特征并依次构建k个随机森林模型。计算删除特征后的k个模型的均方误差,当针对锡膏性能指标的拟合误差最低时,对应的随机森林模型印刷参数特征即为关键因素子集。
本发明以SMT锡膏印刷性能指标为目标变量,采用相关性分析和数据样本间距离计算对属性因素进行冗余剔除和异常检测,通过随机森林特征选择建立锡膏印刷性能影响因素分析模型,根据特征重要度评分进行排序,然后通过指标拟合误差挖掘出锡膏印刷性能的关键影响因素,为工艺人员的印刷过程把控和印刷参数设定提供参考,有效改善印刷性能,确保连续稳定的印刷品质。
下面给出一个更加完整详细的例子,结合附图与实验数据,对本发明及其技术效果进一步说明。
实施例6
基于SMT大数据的锡膏印刷性能影响因素分析方法同实施例1-5,参照图1,本发明所提供的是一种SMT大数据的锡膏印刷性能影响因素分析方法,具体步骤包括:
(1)采集数据并构建数据集:原始锡膏印刷数据集主要划分为印刷参数集和性能指标集两部分,其中,印刷参数集包含PCB属性参数、印刷要素、印刷工艺参数、印刷过程状态参数和环境参数五类数据,性能指标集包含锡膏体积、面积、高度和X/Y偏位五个指标。
下面是针对某种封装类型的锡膏印刷数据,采集数据并构建的SMT锡膏印刷参数和性能指标数据集如表4所示:
表4某封装类型锡膏印刷数据
(2)数据处理:目标变量锡膏体积、面积、高度和X/Y偏位量检测值样本间马氏距离最小为0,即重复样本,删除重复项;距数据分布中心距离大于5的样本点看作离群点被移除,具体步骤同上述实施例2。
(3)计算各影响因素间的相关性,剔除冗余印刷参数:相关性分析是度量因素之间相似度的方法,超强相关的两个影响因素包含的信息类似,需要根据专家经验和业务逻辑关系将冗余的因素剔除,而强相关的因素需要进一步度量,我们希望因素间相关性尽可能小,而因素和指标间相关性尽可能大,T检验的p值小于0.05表示相关性显著,p值为1表示基本不相关,具体步骤同上述实施例3,因素间相关关系是显著的相关度较高的影响因素对如表5所示:
表5锡膏印刷影响因素间的相关度
(4)对数据集中的数据样本进行有放回的随机抽样,划分训练与测试数据:预处理后的SMT数据样本一共约99万条,随机抽取10000次,每次抽取其中的三分之二作为训练样本集,其余未被抽取的样本作为对应的测试样本集。
(5)对训练集中的印刷参数特征进行随机抽样,构建随机森林回归树:数据集一共有145个影响因素,每次随机抽取12个影响因素,构建10000棵回归树。
(6)设定随机森林构建的终止条件:终止条件为设定回归树的数量为10000,每棵回归树不进行任何修剪,使其完全增长。
(7)计算锡膏印刷参数特征的重要度分数:首先计算随机森林回归模型内各回归树的拟合误差:得到10000个回归模型均方误差;然后依次置换测试集每一个特征删除时,计算测试样本集上的均方误差的变化来得到该分数,具体步骤同上述实施例5,综合考虑五个指标的回归误差,使得五个指标回归误差保持在最低状态,其重要度分数如表6所示,列出了重要度得分综合评估排序在前15位的因素:
表6锡膏印刷性能影响因素重要度排序(部分)
(8)锡膏印刷性能影响因素排序以及关键因素子集选取:如图5所示,依据均方误差递减程度来选择关键影响因素,由于五个指标分别对应一组影响因素排序,选取影响因素个数不同,五个指标的拟合精度不同。综合考虑五个质量指标的影响因素排序,获得15个因素为锡膏印刷性能关键影响因素。
本发明通过采用随机森林特征选择结合大数据处理技术挖掘SMT锡膏印刷性能的关键影响因素,然后根据模型拟合误差作为评价准则进行一定的选择与评价,确定性能指标都与哪些参数有关联,以此给出相应的改善方案和建议。
以上描述仅是本发明的一些具体实例,对于本领域的专业人员来说,在了解了本发明的流程和原理后,都可在不背离本发明的原理的情况下,进行形式和细节上的各种修改和变形,倘若这些修改和变形在本发明权利要求极其等同技术的范围内,则这些修改变形也在本发明的保护范围之内。说明书中未详细描述的内容为本领域技术人员的现有技术。
简而言之,本发明所提出的一种基于SMT大数据的锡膏印刷性能影响因素分析方法,解决了锡膏印刷性能影响因素分析中分析不全面、精度低的问题。实现步骤有:(1)采集锡膏印刷参数和印刷性能指标数据,构建锡膏印刷数据集;(2)采用异常检测和空值处理技术进行数据处理;(3)计算印刷参数间的相关系数,度量其相关度,初步过滤冗余特征;(4)有放回的随机抽取一定量的数据样本作为训练样本集,其余样本为测试样本集,重复多次操作;(5)随机抽取部分特征,构建回归树;(6)设定回归树构建数量,作为模型终止条件;(7)根据随机森林的每棵回归树的均方误差增加量估计特征重要度分数,并进行重要度排序;(8)根据随机森林整体模型拟合精度得到关键影响因素子集。本发明通过随机森林特征选择结合大数据处理技术挖掘SMT锡膏印刷性能的关键影响因素,确定性能指标与印刷参数的关联,优化锡膏印刷性能,提升电路板印刷质量。用于表面贴装技术锡膏印刷过程的工艺优化和锡膏印刷性能改善。
Claims (4)
1.一种基于SMT大数据的锡膏印刷性能影响因素分析方法,其特征在于,影响因素分析过程涉及到锡膏印刷参数,印刷性能指标以及关键影响因素选取和排序,具体步骤包括有:
(1)采集数据并构建数据集:采集锡膏印刷过程数据并形成锡膏印刷数据集,该数据集包括印刷参数和性能指标两部分,印刷参数指生产过程中采集到的各类属性变量,性能指标指检测设备检测到的锡膏形态参数,其中性能指标为目标变量;数据样本为数据集中印刷电路板上一个位置对应的印刷参数及锡膏形态参数;
(2)数据处理:计算数据样本间马氏距离,检测偏离分布形状区域的离群点,对于离散取值的属性,根据业务机理来检测离群点,然后移除缺失程度超过25%的属性,对于个别缺失值,根据分布特点进行填补;
(3)计算各影响因素间的相关性,剔除冗余印刷参数:印刷参数有数值型和类别型两类印刷参数特征,计算各数值型印刷参数特征之间的相关系数,类别型与数值型印刷参数特征之间的相关率,以及类别型印刷参数特征之间的克莱姆相关系数,度量各个印刷参数特征间的关联程度,同时结合锡膏印刷专家经验与业务逻辑剔除构建的数据集中冗余的影响因素;
(4)对数据集中的数据样本进行有放回的随机抽样,划分训练样本集与测试样本集:根据删除冗余印刷参数特征后的数据集,随机抽取部分样本,抽取多次,构成多个训练样本集,用于构建多棵回归树,训练样本集简称为训练集;每次未被抽取的数据则为袋外测试数据,构成对应回归树的测试样本集,测试样本集简称为测试集;
(5)对数据集中的印刷参数特征进行随机抽样,构建随机森林回归树:给定训练样本集,随机抽取其中部分印刷参数作为回归树的特征,以锡膏的形态参数作为目标变量构建回归树,所有的回归树构建完成即是随机森林模型构建完成;
(6)设定随机森林构建的终止条件:每棵回归树不进行任何修剪,使其完全增长,通过设定回归树的数量作为随机森林构建的终止条件;
(7)计算锡膏印刷参数特征的重要度分数:当依次移除每个印刷参数特征时,通过计算随机森林模型内各回归树的拟合误差增大的百分比,即计算回归树在各测试样本集上的均方误差的变化,得到被移除的印刷参数特征重要度分数;
(8)锡膏印刷性能影响因素排序以及关键因素子集选取:锡膏印刷性能影响因素排序根据印刷参数特征重要度分数来进行排序的,特征重要度分数越高,该特征对目标变量即印刷形态参数的影响程度就越大;而锡膏印刷性能关键影响因素子集是根据关键因素子集选取模型确定,锡膏印刷性能关键影响因素子集即为锡膏印刷性能的关键影响因素。
2.根据权利要求1所述的基于SMT大数据的锡膏印刷性能影响因素分析方法,其特征在于,步骤(3)所述的计算各影响因素间的相关性包括三种方式:数值型和数值型印刷参数特征的相关性计算、数值型与类别型印刷参数特征的相关率计算以及类别型印刷参数特征之间的克莱姆相关系数计算,不同的属性相关性计算有不同的计算方式,具体计算如下:
(3.1)计算相关系数
相关系数可用于度量数值型数据属性之间的关联程度,对于两个印刷参数特征x和y,相关系数的计算公式如下所示:
其中,rx,y表示印刷参数x和y的相关系数,cov(x,y)表示特征x和y之间的协方差,σx表示特征x的标准差,σy表示特征y的标准差;
相关程度的评价标准为:当相关系数的绝对值在1.0-0.5,相关程度为超强相关到较强相关,具有相关性;当相关系数的绝对值小于0.5,相关程度为弱相关,不具有相关性;其中,相关系数的绝对值为1.0-0.9,相关程度为超强相关;相关系数的绝对值为0.9-0.7,相关程度为强相关;相关系数的绝对值为0.7-0.5,相关程度为较强相关;
若两个数值型数据属性之间的相关程度很高,相关系数会越接近1,相关程度越低,相关系数会更接近0;若相关系数为0,则两个属性直接完全不相关;相关系数表示的是数值型属性之间的线性相关关系;
(3.2)计算相关率
相关率可用于度量数值型属性和分类属性之间的关联程度,相关率的计算公式如下所示:
相关率的评价标准为:当相关率在1.0-0.25,相关程度为超强相关-较强相关,具有相关性;当相关率小于0.25,相关程度为弱相关,不具有相关性;其中,相关率为1.0-0.8,相关程度为超强相关;相关率为0.8-0.5,相关程度为强相关;相关率为0.5-0.25,相关程度为较强相关;
(3.3)计算克莱姆相关系数
克莱姆相关系数也叫做克莱姆关联系数,用于度量分类属性之间的相关程度;假定属性一有n种取值类别,属性二有m种取值类别,则定义{ai,bj}为类别对,表示在属性一取值为ai时,属性二取值为bj,其中i={1,2,…,n},j={1,2,…,m};N(ai,bj)表示该类别对的个数;N(ai)和N(bj)分别表示ai,bj的样本数;C表示数据总条数;
期望次数Q(ai,bj)计算如下:
差异值Differ(ai,bj)计算如下:
皮尔森的卡方统计量χ2是所有可能的类别对差异值之和,如下式所示:
克莱姆相关系数为:
克莱姆相关系数的评价标准为:当克莱姆相关系数在1.0-0.25,相关程度为超强相关-较强相关,具有相关性;当克莱姆相关系数小于0.25,相关程度为弱相关,不具有相关性;其中,克莱姆相关系数为1.0-0.8,相关程度为超强相关;克莱姆相关系数为0.8-0.5,相关程度为强相关;克莱姆相关系数为0.5-0.25,相关程度为较强相关;
针对两个印刷参数特征,若两个属性之间的相关程度很高,相关系数会越接近1,相关程度越低,相关系数会更接近0;若相关系数为0,则两个属性直接完全不相关。
3.根据权利要求1所述的基于SMT大数据的锡膏印刷性能影响因素分析方法,其特征在于,步骤(7)所述的特征重要度分数是选择影响因素的评价标准,当依次移除每个特征属性时,随机森林内各回归树拟合误差增大的百分比,即每个特征被删除时,通过计算袋外数据即测试样本集上的均方误差的变化来得到该分数,具体步骤包括:
(7.1)对k个训练样本集建立k棵回归树,在对应的测试集上进行预测,得到k棵回归树的k个均方误差:分别为M1,M2,…,Mk;
其中,随机森林回归模型内各回归树的均方误差MSE:等于预测值与实际值差值的平方和与测试样本量之比,假定回归树的测试集数据样本量为m,则其均方误差MSE为:
其中,yi是测试集中锡膏印刷形态参数的真实值,yi *是回归树得到的锡膏印刷形态参数的预测值;
(7.2)由于回归树分枝时,特征是随机抽取的,所以特征Xi在k个测试集中随机置换,形成新的测试集,用已建立的随机森林模型的回归树在对应的新测试集上进行计算,得到新的均方误差,组成如下矩阵:
其中,矩阵的每一个元素Mij表示在置换了第i个特征Xi的第j个测试集上的均方误差;
(7.3)计算特征重要度分数Importance,对特征Xi,将M1,M2,…,Mk与新均方误差矩阵第i行相减,除以回归树个数k,即得到特征重要度分数,如下所示:
其中,1≤i≤d。
4.根据权利要求1所述的基于SMT大数据的锡膏印刷性能影响因素分析方法,其特征在于,步骤(8)中所述的关键因素选择模型是根据随机森林模型均方误差递减程度来选取的,其具体内容为:按照印刷参数特征的重要度排序,从重要度低的特征开始,逐步删除特征并依次构建各随机森林模型,计算删除特征后的各模型均方误差,当针对锡膏性能指标的拟合误差最低时,对应的随机森林模型印刷参数特征即为关键因素子集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811645536.3A CN109597968B (zh) | 2018-12-29 | 2018-12-29 | 基于smt大数据的锡膏印刷性能影响因素分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811645536.3A CN109597968B (zh) | 2018-12-29 | 2018-12-29 | 基于smt大数据的锡膏印刷性能影响因素分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109597968A CN109597968A (zh) | 2019-04-09 |
CN109597968B true CN109597968B (zh) | 2021-06-08 |
Family
ID=65965573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811645536.3A Active CN109597968B (zh) | 2018-12-29 | 2018-12-29 | 基于smt大数据的锡膏印刷性能影响因素分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109597968B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533278B (zh) * | 2019-07-15 | 2022-03-22 | 西安电子科技大学 | 基于粒子群优化算法的smt产线检测阈值设定方法 |
CN110533071B (zh) * | 2019-07-29 | 2022-03-22 | 西安电子科技大学 | 基于自编码器和集成学习的smt生产追溯方法 |
CN112801328B (zh) * | 2019-11-14 | 2023-10-31 | 富联精密电子(天津)有限公司 | 产品印刷参数设定装置、方法及计算机可读存储介质 |
CN113449897B (zh) * | 2020-03-25 | 2024-04-16 | 联合汽车电子有限公司 | 一种发动机台架试验参数优化扫点方法 |
CN114375107A (zh) * | 2020-10-15 | 2022-04-19 | 中兴通讯股份有限公司 | Smt产线锡膏印刷非结构化影响因素重构方法、装置及设备 |
CN113255204A (zh) * | 2020-12-01 | 2021-08-13 | 攀钢集团西昌钢钒有限公司 | 一种利用大数据计算统计炼钢钢铁料消耗的方法 |
CN115526093A (zh) * | 2021-06-24 | 2022-12-27 | 中兴通讯股份有限公司 | Smt印刷参数优化模型的训练方法、设备和存储介质 |
CN113726558A (zh) * | 2021-08-09 | 2021-11-30 | 国网福建省电力有限公司 | 基于随机森林算法的网络设备流量预测系统 |
TWI799104B (zh) * | 2022-01-24 | 2023-04-11 | 和碩聯合科技股份有限公司 | 最佳化參數的產生方法及產生裝置 |
CN116362630B (zh) * | 2023-06-01 | 2023-08-18 | 深圳正实自动化设备有限公司 | 基于物联网的锡膏印刷机管理方法、系统及介质 |
CN117333486B (zh) * | 2023-11-30 | 2024-03-22 | 清远欧派集成家居有限公司 | Uv面漆性能检测数据分析方法、装置及存储介质 |
CN118296504B (zh) * | 2024-06-04 | 2024-09-17 | 国网江西省电力有限公司南昌供电分公司 | 一种基于机器视觉的密封圈品质检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103369859A (zh) * | 2013-05-08 | 2013-10-23 | 无锡江南计算技术研究所 | 锡膏印刷治具以及锡膏印刷方法 |
CN108537683A (zh) * | 2018-04-13 | 2018-09-14 | 贵州电网有限责任公司 | 一种基于相似日选取及随机森林算法的负荷预测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI526940B (zh) * | 2013-07-23 | 2016-03-21 | The card structure of smart card and its manufacturing method | |
CN105699399B (zh) * | 2016-03-11 | 2018-06-19 | 河北工业大学 | 一种smt模版质量的检测设备与方法 |
CN106079892B (zh) * | 2016-07-12 | 2019-01-25 | 重庆大学 | 一种pcb锡膏印刷过程质量智能监控系统及方法 |
CN108491991B (zh) * | 2018-01-30 | 2021-08-06 | 西安电子科技大学 | 基于工业大数据产品工期的约束条件分析系统与方法 |
CN108960306B (zh) * | 2018-06-22 | 2022-03-04 | 西安电子科技大学 | 基于smt大数据的锡膏检测阈值优化方法 |
-
2018
- 2018-12-29 CN CN201811645536.3A patent/CN109597968B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103369859A (zh) * | 2013-05-08 | 2013-10-23 | 无锡江南计算技术研究所 | 锡膏印刷治具以及锡膏印刷方法 |
CN108537683A (zh) * | 2018-04-13 | 2018-09-14 | 贵州电网有限责任公司 | 一种基于相似日选取及随机森林算法的负荷预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109597968A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109597968B (zh) | 基于smt大数据的锡膏印刷性能影响因素分析方法 | |
CN108520357B (zh) | 一种线损异常原因的判别方法、装置及服务器 | |
CN109409628B (zh) | 基于计量大数据聚类模型的采集终端生产厂商评价方法 | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
CN110543616B (zh) | 基于工业大数据的smt锡膏印刷体积预测方法 | |
CN111242363A (zh) | 一种基于机器学习的pcb板订单合拼与排版预测方法及系统 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN108491991B (zh) | 基于工业大数据产品工期的约束条件分析系统与方法 | |
CN105426441B (zh) | 一种时间序列自动预处理方法 | |
CN114066848A (zh) | 一种fpca外观缺陷视觉检测系统 | |
CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及系统 | |
CN108875118A (zh) | 一种高炉铁水硅含量预测模型准确度评价方法和设备 | |
WO2024131524A1 (zh) | 一种基于食物图像分割的抑郁症膳食管理方法 | |
CN111367801A (zh) | 一种面向跨公司软件缺陷预测的数据变换方法 | |
CN116821832A (zh) | 针对高压工商业用户用电负荷的异常数据辨识与修正方法 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN111967501B (zh) | 一种遥测原始数据驱动的载荷状态判别方法及判别系统 | |
CN112330029A (zh) | 一种基于多层convLSTM的渔场预测计算方法 | |
CN117252459A (zh) | 一种基于深度学习的水果质量评估系统 | |
CN117541095A (zh) | 一种农用地土壤环境质量类别划分的方法 | |
Ji et al. | Apple color automatic grading method based on machine vision | |
CN115456693A (zh) | 一种大数据驱动的汽车外造型设计的自动评估方法 | |
CN115392710A (zh) | 一种基于数据过滤的风电机组运行决策方法及系统 | |
CN112258472B (zh) | 一种汽车外造型自动评分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230720 Address after: East side of 1st floor, Building 6, Ruiyun, No. 99 Furong Middle Third Road, Xishan District, Wuxi City, Jiangsu Province, 214191 Patentee after: Wuxi Qigong Data Technology Co.,Ltd. Address before: 710071 Taibai South Road, Yanta District, Xi'an, Shaanxi Province, No. 2 Patentee before: XIDIAN University |