CN109871992A

CN109871992A - 基于r-svm的tft-lcd工业智能预测方法

Info

Publication number: CN109871992A
Application number: CN201910092644.0A
Authority: CN
Inventors: 张涛; 冯宇婷; 郝兵
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-11

Abstract

本发明公开了基于R‑SVM的TFT‑LCD工业智能预测方法，本发明将传统svm与随机森林的思想进行了结合，使最终预测结果，更加具有鲁棒性，更可靠。同时，svm本身就适用于高维数据，大型特征空间的训练，在小样本数据上表现较好。实现该方法的核心过程在于样本与特征集合的构建并与最终svm的结合上。传统的svm模型对于特征与样本集合不做太多的筛选与判断，对于整个样本集合都选择直接放入模型中进行训练。基于随机森林的思想，本发明考虑在模型训练的过程中，组成多个不同的样本集与特征集并且结合传统的svm模型进行训练。将训练得到的多个svm模型再对最后的验证集分别进行预测，取所有预测的均值作为最终的预测结果。

Description

基于R-SVM的TFT-LCD工业智能预测方法

技术领域

本发明是一种基于R-SVM的TFT-LCD薄膜晶体管液晶显示器)工业智能预测方法。

背景技术

半导体产业是一个信息化程度高的产业。高度的信息化给数据分析创造了可能性。基于数据的分析可以帮助半导体产业更好的利用生产信息，提高产品质量。现有的解决方案是，生产机器生产完成后，对产品质量做非全面的抽测，进行产品质量检核。这往往会出现以下状况，一是不能即时的知道质量的好坏，当发现质量不佳的产品时，要修正通常都为时以晚，二是在没有办法全面抽测的状况下，存在很大漏检的风险。在机器学习，人工智能快速发展的今天，希望由机器生产参数去预测产品的质量，来达到生产结果即时性以及全面性。更进一步的，可基于预先知道的结果，去做对应的决策及应变，对客户负责，也对制造生产更加敏感。传统的机器学习方法都对数据型预测做出了很大的贡献。单一性的方法有线性回归，实现简单，计算简单并且可解释性强，适用于连续型数据的预测；Svm可解决高维问题，大型特征空间，提高泛化能力；决策树计算简单，易于理解，适用于有缺失属性的样本，高效应对大数据集；knn理论成熟，思想简单等。集成算法包括bagging与boosting类的多种算法。其中运行效果较好的是随机森林方法，解决了决策树的过拟合问题，并且提高了模型的鲁棒性，发挥了较好的作用。集成算法在单一算法的基础上有了一些进步，但是也存在自身的弊端。例如随机森林在解决回归问题时，并不像分类问题的效果那么理想。尤其是在处理小样本数据的时候，效果也是不甚满意。

发明内容

考虑到上述问题，本发明提出了一种基于随机svm的工业智能预测方法。由于上述方法改变了传统的svm训练方式，将传统svm与随机森林的思想进行了结合，使最终预测结果，更加具有鲁棒性，更可靠。同时，svm本身就适用于高维数据，大型特征空间的训练，在小样本数据上表现较好。

本发明采用的技术方案为基于R-SVM的TFT-LCD工业智能预测方法，本方法数据来源于阿里天池工业智能制造质量预测公开数据集，数据列包括生产TFT-LCD的工业制作过程。共有8029列，600个样本。

该方法的实现过程包括如下步骤：

步骤1，数据预处理；

步骤2，pca降维；

步骤3，模型搭建；

步骤4，多模型判断优异；

步骤5，模型预测；

步骤6，mse判定。

步骤1，数据预处理。在数据预处理部分，首先对8029列数据中的离散型数据进行了处理。根据离散型数据列与最终Y值的影响做了一元方差分析。根据离散型列值分析对数据进行了encoder型编码。对数据样本进行去空，重复列去重，对单个空缺值进行填补(使用前一值进行补充)。

步骤2，PCA降维。在降维阶段，使用pca降维技术，因为数据中没有关于各个列值的具体说明，所以直接采用pca降维的方法。在降维过程中，前300列包含有数据98％以上的信息，在降维阶段保留前300列的数据信息。

步骤3，模型搭建。模型搭建的过程中采用了多种方式对模型进行构造与比对。首先使用k折交叉验证对数据进行训练集与测试集的划分，对划分后的数据进行归一化，为后期模型训练准备数据。

步骤4，模型选定。采用机器学习方法对整个数据样本进行了预测。

MSE是真实值与预测值的均方误差，n是样本个数，是预测值，Y_i是真实值。

在降维之后的特征中随机选择出250列特征值，并从500个训练集中抽出300条做为每一个svm模型的训练集，训练出了15个svm模型。组合形成R-SVM模型。

步骤5，mse判定。将训练好的15个svm模型对测试集进行预测，将结果取均值。根据mse判定方法，计算出R-SVM模型的均方误差。

实现该方法的核心过程在于样本与特征集合的构建并与最终svm的结合上。传统的svm模型对于特征与样本集合不做太多的筛选与判断，对于整个样本集合都选择直接放入模型中进行训练。基于随机森林的思想，本发明考虑在模型训练的过程中，组成多个不同的样本集与特征集并且结合传统的svm模型进行训练。将训练得到的多个svm模型再对最后的验证集分别进行预测，取所有预测的均值作为最终的预测结果。

附图说明

图1是本发明的总体流程示意图。

图2是本发明中object数据的单元素分析结果图。

图3是本发明中PCA降维数据列信息含量图。

图4是本发明svm的集合模型结构图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

数据描述：本发明数据来源于阿里天池工业智能制造质量预测公开数据集，数据列包括生产TFT-LCD的工业制作过程。共有8029列，600个样本。

以下将结合附图所示的具体实施方式对本发明进行详细描述。

图1是本发明基于R-SVM的TFT-LCD工业智能预测方法的流程示意图，如图1所示，整个操作过程包括：

步骤1，数据预处理,；

步骤2，pca降维；

步骤3，模型搭建,；

步骤4，多模型判断优异；

步骤5，模型预测；

步骤6，mse判定。

以下对每个步骤进行详细说明：

步骤1，数据预处理。在数据预处理部分，本实例首先对8029列数据中的离散型数据进行了处理。根据离散型数据列与最终Y值的影响做了一元方差分析。方差分析结果如图2所示。根据离散型列值分析对数据进行了encoder型编码。对数据样本进行去空，重复列去重，对单个空缺值进行填补(使用前一值进行补充)。

步骤2，PCA降维。在降维阶段，本实例使用的是pca降维技术，因为数据中没有关于各个列值的具体说明，所以直接采用了pca降维的方法，对列值不需要过多的解释。在降维过程中，发现前300列包含有数据98％以上的信息，如图3所示。所以在降维阶段保留前300列的数据信息。

步骤3，模型搭建。模型搭建的过程中本实例采用了多种方式对模型进行构造与比对。首先使用k折交叉验证对数据进行训练集与测试集的划分，对划分后的数据进行归一化，为后期模型训练准备数据。

步骤4，模型选定。本实例首先采用了传统的机器学习方法对整个数据样本进行了预测，预测结果如表1所示。

根据表1可知，传统算法中svm与随机森林得到的结果最好。所以本发明将随机森林的思想运用于svm中。在降维之后的特征中随机选择出250列特征值，并从500个训练集中抽出300条做为每一个svm模型的训练集，训练出了15个svm模型。组合形成R-SVM模型。

步骤5，mse判定。将训练好的15个svm模型对测试集进行预测，将结果取均值。根据mse判定方法，计算出R-SVM模型的均方误差。根据数据结果发现本发明中的RSVM模型较其他模型相比，mse下降了2个百分点，优化效果明显。

表1

Claims

1.基于R-SVM的TFT-LCD工业智能预测方法，其特征在于：本方法数据来源于阿里天池工业智能制造质量预测公开数据集，数据列包括生产TFT-LCD的工业制作过程。共有8029列，600个样本；

该方法的实现过程包括如下步骤，

步骤1，数据预处理；

步骤2，pca降维；

步骤3，模型搭建；

步骤4，多模型判断优异；

步骤5，模型预测；

步骤6，mse判定。

2.根据权利要求1所述的基于R-SVM的TFT-LCD工业智能预测方法，其特征在于：步骤1，数据预处理；在数据预处理部分，首先对8029列数据中的离散型数据进行了处理；根据离散型数据列与最终Y值的影响做了一元方差分析；根据离散型列值分析对数据进行了encoder型编码；对数据样本进行去空，重复列去重，对单个空缺值进行填补；

步骤2，PCA降维；在降维阶段，使用pca降维技术，因为数据中没有关于各个列值的具体说明，所以直接采用pca降维的方法；在降维过程中，前300列包含有数据98％以上的信息，在降维阶段保留前300列的数据信息；

步骤3，模型搭建；模型搭建的过程中采用了多种方式对模型进行构造与比对；首先使用k折交叉验证对数据进行训练集与测试集的划分，对划分后的数据进行归一化，为后期模型训练准备数据；

步骤4，模型选定；采用机器学习方法对整个数据样本进行了预测；

MSE是真实值与预测值的均方误差，n是样本个数，是预测值，Y_i是真实值；

在降维之后的特征中随机选择出250列特征值，并从500个训练集中抽出300条做为每一个svm模型的训练集，训练出了15个svm模型；组合形成R-SVM模型；

步骤5，mse判定；将训练好的15个svm模型对测试集进行预测，将结果取均值；根据mse判定方法，计算出R-SVM模型的均方误差。