CN114298325A

CN114298325A - 基于机械学习的关键因子自动寻找方法

Info

Publication number: CN114298325A
Application number: CN202111636513.8A
Authority: CN
Inventors: 顾永庭; 程友信; 詹朝岩; 杨其勋; 郭智渊
Original assignee: AU Optronics Corp
Current assignee: AU Optronics Corp
Priority date: 2021-07-07
Filing date: 2021-12-29
Publication date: 2022-04-08
Also published as: TW202303461A; TWI810602B

Abstract

本公开提出一种基于机械学习的自动关键因子寻找方法。首先，收集训练数据集。所述训练数据集包括多个数据集以及与各数据集相对应的结果数值。接着，基于所述训练数据集建立机器学习模型。在此，将各数据集作为机器学习模型的输入变量，并将与各数据集相对应的结果数值作为机器学习模型的输出变量，借此来训练机器学习模型。在建立该机器学习模型之后，对机器学习模型执行模型解析法，以在所述数据集中取出影响结果数值的至少一关键因子。

Description

基于机械学习的关键因子自动寻找方法

技术领域

本发明是有关于一种数据探勘方法，且特别是有关于一种基于机械学习的关键因子自动寻找方法。

背景技术

随着科学技术的日新月异，各种行业的信息化程度大幅全面提升，整个社会的数据正在以前所未有的速度快速增长。而数据探勘便是在巨量数据快速增长下的产物。数据探勘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构。

一般用于厂房良率分析的情况下，当生产品质或效能出现异常时，厂房人员会利用线性分析方式来逐一判断每一个参数与良率之间的关联性。倘若参数过多，逐一确认的方式则显得过于消耗人力资源。此外，对于一个以上的因子或是非线性关系造成良率异常，传统分析方式亦不易判断。

发明内容

本发明提供一种关键因子分析流程，可有效找出数据中的关键因子。

本发明的基于机械学习的关键因子自动寻找方法，包括：收集训练数据集，其中训练数据集包括多个数据集以及与各数据集相对应的结果数值；基于训练数据集建立机器学习模型，其中将各数据集作为机器学习模型的输入变量，并将与各数据集相对应的结果数值作为机器学习模型的输出变量，借此来训练机器学习模型；以及在建立机器学习模型之后，对机器学习模型执行模型解析法，以在所述数据集中取出影响结果数值的至少一关键因子。

在本发明的一实施例中，在收集训练数据集之后，还包括：对所述数据集进行前处理，其中前处理包括遗缺值补值(missing value imputation)处理、离散特征数字化处理以及特征预处理。离散特征数字化处理例如为单热编码(One Hot Encoder)、标签编码(LabelEncoder)等。特征预处理例如为归一化(normalization)处理、正则化(regularization)处理、标准化(standardization)处理等。

在本发明的一实施例中，在对机器学习模型执行模型解析法之前，还包括：对机器学习模型执行自动超参(hyper parameter)调整处理(如贝叶式优化法、退火法)，以优化机器学习模型。

在本发明的一实施例中，各数据集包括生产产品时所使用的一或多个机台的多个特征参数，结果数值为良率值，而对机器学习模型执行模型解析法包括：通过模型解析法来计算每一个特征参数对应的重要值；以及基于所述重要值来决定至少一关键因子。

在本发明的一实施例中，所述特征参数至少包括电流、温度、运转速度、流量、扭力、环境微粒子(particle)量以及排气(exhaust)值中的任意两个。

在本发明的一实施例中，对机器学习模型执行模型解析法，以在所述数据集中取出影响结果数值的至少一关键因子之后，还包括：将至少一关键因子以视觉化方式呈现。

在本发明的一实施例中，所述机器学习模型为极限梯度提升(eXtreme GradientBoosting，XGBoost)模型、分类提升(Category and Boosting，CatBoost)模型、随机森林(random forest)以及轻度梯度提升机(light gradient boosting machine，LightGBM)其中一个。

在本发明的一实施例中，所述模型解析法为薛普利加法解释(SHapley AdditiveexPlanations，SHAP)或是局部可解释模型解释法(Local Interpretable Model-agnosticExplanations，LIME)。

基于上述，本公开是先利用机器学习模型来建立数据集与其对应的结果数据之间的关系，之后从模型解析法来解析机器学习模型，借此来获得影响结果数据的关键因子。据此，避免了传统数据分析中，复杂繁琐耗费人工的分析过程，可快速找出数据中的关键因子。

附图说明

图1是依照本发明一实施例的电子装置的方框图。

图2是依照本发明一实施例的基于机械学习的关键因子自动寻找方法的流程图。

图3是依照本发明一实施例的机器学习模型的示意图。

图4是依照本发明一实施例的视觉化呈现关键因子的示意图。

图5是依照本发明一实施例的视觉化呈现关键因子的示意图。

其中，附图标记说明如下：

100：电子装置

110：处理器

120：储存器

121：建模模块

123：解析模块

310：输入层

320：隐藏层

330：输出层

S205～S220：基于机械学习的关键因子自动寻找方法的步骤

具体实施方式

图1是依照本发明一实施例的电子装置的方框图。请参照图1，电子装置100包括处理器110以及储存器120。处理器110耦接至储存器120。处理器110例如为中央处理单元(Central Processing Unit，CPU)、物理处理单元(Physics Processing Unit，PPU)、可编程微处理器(Microprocessor)、嵌入式控制芯片、数字信号处理器(Digital SignalProcessor，DSP)、特殊应用集成电路(Application Specific Integrated Circuits，ASIC)或其他类似装置。

储存器120例如是任意型式的固定式或可移动式随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash memory)、硬盘或其他类似装置或这些装置的组合。储存器120包括建模模块121以及解析模块123。建模模块121以及解析模块123是由一或多个程序码片段所组成，上述程序码片段在被安装后，会由处理器110来执行下述基于机械学习的关键因子自动寻找方法。

图2是依照本发明一实施例的基于机械学习的关键因子自动寻找方法的流程图。请同时参照图1及图2，在步骤S205中，电子装置100收集训练数据集。所述训练数据集包括多个数据集以及与各数据集相对应的结果数值。

每一个数据集具有对应的一个结果数据。各数据集包括生产产品时所使用的一或多个机台的多个特征参数。所述特征参数至少包括电流、温度、运转速度、流量、扭力、环境微粒子(particle)量以及排气(exhaust)值中的任意两个。结果数值为良率值。不同的特征参数会影响良率值。

在收集训练数据集之后，处理器110进一步会对所述数据集进行前处理。例如，储存器120中还包括有一前处理模块(未绘示)，通过前处理模块来执行遗缺值补值(missingvalue imputation)处理、离散特征数字化处理以及特征预处理处理。

遗缺值补值(missing value imputation)处理常用于处理不完整数据集问题的解决方法。例如，可使用统计技术或机器学习技术产生出推估值并且用来取代遗缺值。统计技术例如为平均值、众数或回归等。机器学习技术例如为k最近邻演算法(k-nearestneighbors(KNN)algorithm)、人工类神经网络(artificial neural network，ANN)和支援向量机(support vector machine，SVM)等技术。

所述离散特征数字化处理例如为单热编码(One Hot Encoder)、标签编码(LabelEncoder)等。单热编码主要是采用N位元状态暂存器来对N个状态进行编码，每个状态都具有独立的暂存器位元，并且在任意时候只有一个位元有效。直观来说就是有多少个状态就有多少位元，而且只有一个位元为1，其他全为0。标签编码类似于流水号，依序将新出现的类别依序编上新代码，已出现的类别编上已使用的代码。

特征预处理例如为归一化(normalization)处理、正则化(regularization)处理、标准化(standardization)处理等。归一化(normalization)处理主要是将数据映射至0～1范围之内，其中最小值被转化为0，最大值被转化为1。正则化处理包括L1正则化和L2正则化。L1正则化会让模型的权重参数稀疏化(部分权重的值为0)，L2正则化会让模型的权重有趋于0的偏好(部分权重趋于0)。标准化处理是将数据按比例缩放，使其落入一个小的特定区间内。

接着，在步骤S210中，基于训练数据集建立机器学习模型。具体而言，建模模块121将各数据集作为机器学习模型的输入变量，并将与各数据集相对应的结果数值作为机器学习模型的输出变量，借此来训练机器学习模型。即，建模模块121利用机器学习模型来建立数据集与其对应的结果数据之间的非线性或是线性关系。

所述机器学习模型例如为极限梯度提升(eXtreme Gradient Boosting，XGBoost)模型、分类提升(Category and Boosting，CatBoost)模型、随机森林(random forest)、轻度梯度提升机(light gradient boosting machine，LightGBM)或是任意的机械学习模型。通过机器学习模型来建立数据集及其结果数据的关联性。

图3是依照本发明一实施例的机器学习模型的示意图。请参照图3，在本实施例中，机器学习模型具有多个层，包括输入层310、一或多个隐藏层320以及输出层330。输入层310供输入变量X1～Xn输入。隐藏层320用以进行运算后，通过输出层330来获得输出变数Y。即，将多组数据集及其对应的结果数据分别作为输入变量X1～Xn与输出变量Y，来更新隐藏层320的参数，最终训练出一组权重(weight)。

在训练出一组权重值之后，还可进一步对机器学习模型执行超参(hyperparameter)调整处理，以优化机器学习模型。超参数调整化也称作超参数优化。一般而言，机器学习或深度学习的演算法中包含了庞大的参数量，其中包括可以通过训练来优化的参数，例如模型中使用的权重(weight)等，以及用来调节整个机器学习模型训练过程的超参数(hyper parameter)。超参数并不直接参与到训练的过程中，其只是配置变数。也就是说，超参数并无法通过训练来进行优化。超参数包括隐藏层320的数量、核函数(kernelfunction)的大小及/或数量等。

超参调整就是在变数可能取值空间中寻找一组参数以使机器学习模块达到令人满意的效果。例如，可利用贝叶斯优化(Bayesian optimization)演算法、模拟退火(simulated annealing)演算法、随机搜寻(random search)演算法、粒子群优化(particleswarm optimization，PSO)演算法等来对机器学习模型执行超参调整。

另外，在建立机器学习模型之后，还可对机器学习模型进行测试，并通过混淆矩阵(confusion matrix)来呈现测试结果。混淆矩阵是可视化工具，矩阵的每一列代表一个分类的实例预测，而每一行表示一个实际分类的实例。通过混淆矩阵可以方便地看出机器学习模型的输出结果是否将两个不同的类混淆。

在建立机器学习模型之后，于步骤S215中，对机器学习模型执行模型解析法。并且，在步骤S220中，在所述数据集中取出影响结果数值的至少一关键因子。处理器110可通过解析模块123执行模型解析法来计算每一个特征参数对应的重要值，之后基于所述重要值来决定至少一关键因子。所述模型解析法例如为薛普利加法解释(SHapley AdditiveexPlanations，SHAP)演算法。利用SHAP演算法对每一个特征参数计算一个对应的SHAP值，利用SHAP值测量机器学习模型中每个特征参数对每个结果数值的正面或负面贡献的程度。

在其他实施例中，所述模型解析法亦可采用其他的可解释人工智能的解析技术，例如，局部可解释模型解释法(Local Interpretable Model-agnostic Explanations，LIME)等。

在获得关键因子之后，处理器110还可进一步将关键因子以视觉化方式呈现。图4是依照本发明一实施例的视觉化呈现关键因子的示意图。在图4中，Y轴表示各个特征参数，X轴表示该点对应的SHAP值，右方竖立的灰阶渐层线(颜色)用以表示该特征参数的数值大小。例如，以特征参数01而言，其颜色深的部分位于右半(大于0)部分，表示特征参数01的数值高的时候，对良率造成负影响，会造成良率值降低。以特征参数03而言，其颜色深的部分多位于左半(小于0)部分，表示特征参数03的值越高，会导致良率值的改善。由图4可以看出每一个特征参数的SHAP值的分布，可以看出特征参数与结果数值之间的关系。

图5是依照本发明一实施例的视觉化呈现关键因子的示意图。在图5中，X轴为每个特征参数的SHAP绝对值的平均值。由图5可以看出每一个特征参数的重要度。SHAP绝对值的平均值越高，代表重要度越高。

假设通过上述方法得到的关键因子为排气(exhaust)值，则可在制程上对排气值来进行调整，借此可改善产品的良率。

综上所述，本公开是先利用机器学习模型来建立数据集与其对应的结果数据之间的关系，之后从模型解析法来解析机器学习模型，借此来获得影响结果数据的关键因子。据此，避免了传统数据分析中，复杂繁琐耗费人工的分析过程，可有效快速找出数据中的关键因子。

Claims

1.一种基于机械学习的关键因子自动寻找方法，包括：

收集一训练数据集，其中该训练数据集包括多个数据集以及与每一所述数据集相对应的一结果数值；

基于该训练数据集建立一机器学习模型，其中将每一所述数据集作为该机器学习模型的输入变量，并将与每一所述数据集相对应的该结果数值作为该机器学习模型的输出变量，借此来训练该机器学习模型；以及

在建立该机器学习模型之后，对该机器学习模型执行一模型解析法，以在所述数据集中取出影响该结果数值的至少一关键因子。

2.如权利要求1所述的基于机械学习的关键因子自动寻找方法，其中在收集该训练数据集之后，还包括：

对所述数据集进行一前处理，其中该前处理包括一遗缺值补值处理、一离散特征数字化处理以及一特征预处理处理。

3.如权利要求1所述的基于机械学习的关键因子自动寻找方法，其中在对该机器学习模型执行该模型解析法之前，还包括：

对该机器学习模型执行一自动超参调整处理，以优化该机器学习模型。

4.如权利要求1所述的基于机械学习的关键因子自动寻找方法，其中每一所述数据集包括生产一产品时所使用的一或多个机台的多个特征参数，该结果数值为一良率值，而对该机器学习模型执行该模型解析法包括：

通过该模型解析法来计算每一所述特征参数对应的一重要值；以及

基于该重要值来决定该至少一关键因子。

5.如权利要求4所述的基于机械学习的关键因子自动寻找方法，其中所述特征参数至少包括电流、温度、运转速度、流量、扭力、环境微粒子量以及排气值中的任意两个。

6.如权利要求1所述的基于机械学习的关键因子自动寻找方法，其中在对该机器学习模型执行该模型解析法，以在所述数据集中取出影响该结果数值的该至少一关键因子之后，还包括：

将该至少一关键因子以视觉化方式呈现。

7.如权利要求1所述的基于机械学习的关键因子自动寻找方法，其中该机器学习模型为极限梯度提升模型、分类提升模型、随机森林以及轻度梯度提升机其中一个。

8.如权利要求1所述的基于机械学习的关键因子自动寻找方法，其中该模型解析法为薛普利加法解释或是局部可解释模型解释法。