CN112990578A

CN112990578A - 一种工业低质高噪数据建模及产品质量预测方法

Info

Publication number: CN112990578A
Application number: CN202110280515.1A
Authority: CN
Inventors: 任磊; 王涛
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-18

Abstract

本发明公开了一种工业低质高噪数据建模及产品质量预测方法，包括不但能够充分地利用有标签样本和无标签样本，而且在极少的有标签样本下就可以获得不错的性能。特别是，通过我们精心设计的自监督学习的预训练辅助任务，模型能够很好的学习到原始数据的表征，通过这种表征学习，模型能够在极少数的有标签样本，甚至是原始有标签样本数据的1/10,1/20下，获得媲美传统方法如支持向量机，梯度提升树等模型的结果；相对于传统的，没有进行提前预训练的模型，有预训练的模型优势明显，尤其是在极少有标签样本的数据量下，不容易过拟合而且效果良好；为了将这种自监督学习的预训练辅助任务引入工业过程中，提出了一种针对不同特征重要性的预训练辅助任务，有效地提高了预训练的效果；本发明结构简单，安装稳定性高，数据采集效率高且使用方便，实用性强。

Description

一种工业低质高噪数据建模及产品质量预测方法

技术领域

本发明涉及一种面向工业过程中低质高噪数据建模及产品质量预测方法，属于“工业大数据、深度学习”领域。

背景技术

本发明适用于在传统的工业过程，尤其是流程工业如矿物炼制、石油精炼过程中，用于改善其中普遍存在的低采样率问题(有标签的产品质量数据样本少，无标签的产品质量数据样本多)，适用于在少量有标签样本条件下的产品质量预测。

面向工业过程中低质高噪数据建模及产品质量预测的问题的解决方法，一般可以分为两大类，第一种是无监督学习方法，一种是半监督学习方法：(1)无监督学习方法主要是利用自编码器及其变体等从有标签和无标签样本提取一种原始数据的表征，而在这种表征的学习中，是不使用样本的标签，因此称为无监督学习。(2)半监督学习方法主要是通过算法，使用“有标签样本”对模型进行训练，再利用“无标签样本”进行辅助训练。一般可以分为基于协同训练和基于图的半监督学习方法。

自监督学习可以称为是无监督学习的一种，包括预训练和微调两个过程。相对于无监督学习，它自己构造辅助任务，如预测被盖住的特征，而不只是如传统无监督学习如自编码器一次对所有特征重构。它的作用是提高了预训练的质量，不但提高了在微调过程中下游任务的效果，而且在通过更加高质量的表征学习，在极少量有标签样本下的产品质量预测仍然有不错的性能。

综上所述，针对现有技术的缺陷，提供一种工业过程中面对工业低质高噪数据建模以及产品质量预测的技术解决方案，提出了一种将自监督学习引入工业过程领域且针对工业低质高噪数据的产品质量预测的范式，从而解决以上提到的问题。

发明内容

针对现有技术中存在的上述不足之处，本发明目的是提供一种将自监督学习引入工业过程领域且针对少量有标签样本的产品质量预测的范式。

本发明为实现上述目的所采用的技术方案是：(1)提出了自监督学习的预训练辅助任务，要求对输入的数据进行随机的掩码，使得模型根据没有掩码的数据去预测掩码的数据，提高了预训练的质量，而且提高了在微调过程中下游任务的效果。

(2)要将自监督学习引入工业过程领域，就应该要有有效地特征选择方式。因为：变量之间可能存在很多的噪声，让模型去预测相对不重要的噪声特征是相对不合适的，但是如果只让模型去预测较重要的特征，这样模型的预训练任务较为简单，容易使得模型的泛化性能变差

(3)由于工业过程的变量具有高度的非线性和强耦合性质，变量之间存在时序，非时序的关系。要获得有效的预测结果，应该要有时序信息和非时序信息的特征抽取部分。在本发明中，通过长短时间记忆单元进行时序信息的特征抽取，通过深度因子分解机进行非时序信息的低阶和高阶特征抽取，最终结合两者进行产品质量预测生成。

有益效果：

本发明在面向工业工业低质高噪数据的产品质量预测领域使用后，模型不但能够充分地利用有标签样本和无标签样本，而且在极少的有标签样本下就可以获得不错的性能。特别是，通过我们精心设计的自监督学习的预训练辅助任务，模型能够很好的学习到原始数据的表征，通过这种表征学习：

(1)模型能够在极少数的有标签样本，甚至是原始有标签样本数据的1/10,1/20下，获得媲美传统方法如支持向量机，梯度提升树等模型的结果。

(2)相对于传统的，没有进行提前预训练的模型，有预训练的模型优势明显，尤其是在极少有标签样本的数据量下，不容易过拟合而且效果良好。

(3)为了将这种自监督学习的预训练辅助任务引入工业过程中，提出了一种针对不同特征重要性的预训练辅助任务，有效地提高了预训练的效果。

附图说明

图1为本发明模型的预训练过程图；

图2为本发明模型的微调过程图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对数据预处理和特征选择

输入数据要通过数据预处理和特征选择阶段。数据预处理主要包括数据分箱和数据归一化。

数据分箱是一种常见的数据处理方法，因为工业过程中，传感器采集的数据可能存在着很多工业噪声的影响，针对一些方差比较小的特征，可以采用数据分箱去抑制数据噪声对数据分析的影响。

数据归一化主要是针对工业过程中，传感器采集到的数据范围并不相同，通常不同的特征差别很大，

通过数据归一化，将数据归一到0到1之间，同时也能保持原始的数据分布。

特征选择对自监督学习中的预训练辅助任务尤其重要，因为预训练辅助任务要求对输入的数据进行随机的掩码，要求模型根据没有掩码的数据去预测掩码的数据。虽然此前对方差较小的特征进行了数据分箱，但是变量之间可能存在很多的噪声，让模型去预测相对不重要的噪声特征是相对不合适的，但是如果只让模型去预测较重要的特征，这样模型的预训练任务较为简单，这样容易使得模型的泛化性能变差。因此一个良好的特征选择对于将自监督学习任务引入工业过程的样本质量预测是必要的。

通过“置换标签”的特征选择方法，根据一定的阈值保留特征重要性较高的特征，用于后面的模型训练。这种“置换标签”的特征选择方法，主要是随机置换标签，计算这些置换标签下的特征重要性的“假”分布，再计算用真实标签下的特征重要性的“真”分布。通过假定模型在“假”的标签下得到的假分布与真实分布的差距，得到模型的特征重要性，用于模型的预训练过程中。

由于工业过程的变量具有高度的非线性和强耦合性质，变量之间存在时序，非时序的关系。传统的方法如长短时间记忆单元(LSTM)只能够提取时序特征，但不够强大能够捕捉其中的非线性特征。而多层感知机(MLP)或者深度因子分解机(DeepFM)能够提取低阶、高阶特征，但是每次模型输入样本点实际上是一个时间点的数据，忽略了数据中潜在的时序特征。

因此，我们提出了LSTM-DFM结构，长短时间记忆单元辅助深度因子分解机提取时序特征，时序特征和长短时间记忆单元的输入一同送入深度因子分解机模型中。因而时序和非时序特征可以被充分的考虑，模型性能得到提高。

如图1所示，模型的预训练过程：首先，有标签和无标签的数据先通过特征选择，数据归一化后送入“掩码和连接层”中。这个层将原始的输入进行随机的掩码并与长短时间记忆单元的输出(时序特征)连接到一起，，送入深度因子分解机的深度模型(DeepComponent,主要由DNN组成)的编码器和解码器，最终计算混合的损失(原始输入掩码损失和长短时间记忆单元的重构损失)。

构造的辅助任务是：随机的对原始输入数据进行掩码，但是根据数据的特征重要性，使得较高重要性的特征有较大的概率被掩码，而且只预测被掩码的数据的预测损失。而对于长短时间记忆单元输出的时序特征进行传统自编码器的重构。

通过基于混合损失的反向传播算法，长短时间记忆单元和因子分解机的深度模型被充分的训练。

如图2所示：以之前预训练的“掩码和连接层”和深度因子分解机的深度部分为基础，在模型微调阶段，只是用少量的有标签样本。

(1)加上数据分箱得到的离散特征通过深度因子分解机的因子分解机的部分。

(2)数据归一化得到的连续特征依次通过预训练的长短时间记忆单元、“掩码和连接层”、深度因子分解机的深度模型部分。

(3)最终将因子分解机的输出和深度模型的输出连接，通过反向传播算法最终得到产品质量数据的预测。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种工业低质高噪数据建模及产品质量预测方法，所述预测方法步骤为：1)提出了自监督学习的预训练辅助任务，要求对输入的数据进行随机的掩码，使得模型根据没有掩码的数据去预测掩码的数据，提高了预训练的质量，而且提高了在微调过程中下游任务的效果；2)要将自监督学习引入工业过程领域，就应该要有有效地特征选择方式。因为：变量之间可能存在很多的噪声，让模型去预测相对不重要的噪声特征是相对不合适的，但是如果只让模型去预测较重要的特征，模型的预训练任务较为简单，容易使得模型的泛化性能变差；3)由于工业过程的变量具有高度的非线性和强耦合性质，变量之间存在时序，非时序的关系。要获得有效的预测结果，应该要有时序信息和非时序信息的特征抽取部分；通过长短时间记忆单元进行时序信息的特征抽取，通过深度因子分解机进行非时序信息的低阶和高阶特征抽取，最终结合两者进行产品质量预测生成。

2.根据权利要求1所述的一种工业低质高噪数据建模及产品质量预测方法，其特征在于：所述模型的预训练过程为：首先，有标签和无标签的数据先通过特征选择，数据归一化后送入“掩码和连接层”中。这个层将原始的输入进行随机的掩码并与长短时间记忆单元的输出(时序特征)连接到一起，送入深度因子分解机的深度模型的编码器和解码器，最终计算混合的损失。

构造的辅助任务是：随机的对原始输入数据进行掩码，但是根据数据的特征重要性，使得较高重要性的特征有较大的概率被掩码，而且只预测被掩码的数据的预测损失。而对于长短时间记忆单元输出的时序特征进行传统自编码器的重构；

3.根据权利要求2所述的一种工业低质高噪数据建模及产品质量预测方法，其特征在于：以之前预训练的“掩码和连接层”和深度因子分解机的深度部分为基础，在模型微调阶段，只是用少量的有标签样本；

1)加上数据分箱得到的离散特征通过深度因子分解机的因子分解机的部分；

2)数据归一化得到的连续特征依次通过预训练的长短时间记忆单元、“掩码和连接层”、深度因子分解机的深度模型部分；

3)最终将因子分解机的输出和深度模型的输出连接，通过反向传播算法最终得到产品质量数据的预测。