CN118820788B

CN118820788B - 一种小样本工业时序数据增强和质量预测方法及系统

Info

Publication number: CN118820788B
Application number: CN202411297963.2A
Authority: CN
Inventors: 沈非凡; 何健松; 单位银; 徐刚行; 毛惠忠; 王琼
Original assignee: Ningbo Sono Manufacturing Co ltd
Current assignee: Ningbo Sono Manufacturing Co ltd
Priority date: 2024-09-18
Filing date: 2024-09-18
Publication date: 2025-01-21
Anticipated expiration: 2044-09-18
Also published as: CN118820788A

Abstract

本发明提供一种小样本工业时序数据增强和质量预测方法及系统，该方法包括步骤：获取历史数据集作为训练数据集，将历史数据集输入加入时序解码过程的变分自编码器模型以生成虚拟样本，对虚拟样本样本进行处理后获取补充过程样本；将补充过程样本输入预训练的软测量模型以获取虚拟质量样本，将上述数据组成的扩展训练数据集，由扩展训练数据集对软测量模型进行更新训练；将在线输入变量输入更新后的软测量模型，预测在线质量变量；上述系统包括依次电连接的样本生成模块、混合训练模块和预测模块。相比于传统的基于VAE的方法，加入了时序解码器部分，确保了生成的虚拟样本更接近真实样本的分布，具有更好的多样性。

Description

一种小样本工业时序数据增强和质量预测方法及系统

技术领域

本发明涉及数据处理领域，尤其涉及一种小样本工业时序数据增强和质量预测方法及系统。

背景技术

为了确保工业过程的安全和效率，严格控制各类过程变量是一项重要任务。然而，对于一些关键变量，尤其是质量变量，通常很难实现实时测量。软测量技术能够通过易于测量的过程变量来预测难以测量的质量变量。软测量技术通常可分为两类，即基于模型的方法和基于数据的方法。基于模型的方法依赖于领域知识和理论模型来描述和解释过程现象，通过构建数学模型来做出预测和决策。这些方法具有出色的可解释性，但在很大程度上依赖于对系统和过程的理论理解，需要模型分析方面的专业知识和经验。相比之下，数据驱动的方法使用统计技术来提取数据特征，以更高的灵活性从大量数据中自动学习，尤其擅长识别高维和复杂数据结构之间的非线性等特征。随着工艺复杂性的增长和数据传输技术的发展，基于数据的软测量技术已成为主流。然而，缺失值、低采样率和高采样重复率等问题会导致基于数据的软测量神经网络模型的训练数据不足。在这种情况下，软测量神经网络模型无法完全捕捉过程的动态性，可能无法准确预测质量变量。这种现象被称为小样本问题。

针对小样本问题，可以通过虚拟样本生成（Virtual Sample Generation, VSG）技术进行数据扩充。VSG技术旨在基于现有的数据集创建新的样本，以扩展和丰富训练数据集，从而提高软测量神经网络模型的性能。基于采样的VSG技术，如插值法和Bootstrap法等经典方法，在软测量应用中发挥着重要作用。尽管生成了额外的样本，但它们本质上并不生成新的数据，而是利用现有的数据来生成额外的样本。随着深度学习技术的快速发展，基于特征提取的VSG技术，如变分自编码器（Variational Autoencoder, VAE）和生成对抗性网络（Generative Adversarial Network, GAN），在生成高维数据和增加样本多样性方面取得了良好的效果。例如，利用VAE可以从噪声过程数据中提取特征，测量当前样本和历史样本之间的相似性，学习高维复杂数据的分布并生成相似样本。虽然基于VAE和GAN的方法在生成虚拟样本方面表现出了强大的能力，但它们在应用于时间序列数据时遇到了局限性，没有考虑过程数据的时间相关性和动态特征。由于无法完全捕捉时间序列数据的数据分布，VAE减少了模型的多样性，以最大限度地减少重构误差损失，从而导致数据同质化。对于GAN来说，它虽然能够产生更多样化的样本，但容易生成与实际数据显著偏离的虚拟样本。因此，提供一种能同时兼顾虚拟样本多样性以及真实性的小样本工业时序数据增强和质量预测方法及系统，成为目前亟待解决的问题。

发明内容

本发明要解决的技术问题是，提供一种小样本工业时序数据增强和质量预测方法及系统。

本发明的技术方案是：种小样本工业时序数据增强和质量预测方法，所述方法包括步骤：

S1、获取历史数据集作为训练数据集，将历史数据集D输入加入时序解码过程的变分自编码器模型以生成虚拟样本，对虚拟样本样本进行处理后获取补充过程样本；

S2、将输入预训练的软测量神经网络模型以获取虚拟质量样本，将由历史数据集、补充过程样本以及虚拟质量样本组成的扩展训练数据集，由扩展训练数据集对软测量神经网络模型进行更新训练；

S3、将在线输入变量输入更新后的软测量神经网络模型，预测在线质量变量；

其中，步骤S1包括步骤：

S11、对工业时序数据进行预处理，获取历史数据集作为训练数据集；

S12、将历史数据集D输入加入时序解码过程的变分自编码器模型后生成虚拟样本，对虚拟样本进行筛选扩充，获取虚拟过程样本；

其中，X表示N×T×M的一般过程变量，Y表示N×T×m的关键质量变量，式中N表示变量维度，T是时间步长，M和m分别表示过程变量和质量变量的维度；以及步骤S12包括：

S121、将历史数据集D作为模型输入并输入至编码器中进行编码，其中编码层包含若干卷积层，并通过展开操作后，计算获取潜变量z；

S122、潜变量z与条件变量c结合后，共同作为输入变量进入解码器，在该解码过程中输入变量分别经过多个时序性模块，提取各个模型下的时序特征；

S123、将所有的时序特征进行组合处理，获取全新的虚拟样本；

S124、对虚拟样本进行筛选扩充，获取补充过程样本。

较佳的，在步骤S122中，多个时序性模块包括一个趋势性模块、若干个季节性模块以及一个残差模块。

较佳的，在步骤S12中，损失函数的计算公式为：

在上式中，为似然函数，是z在x, c条件下的后验概率分布，x 为重构的时间序列数据，c为条件变量。服从一个高斯分布，是和之间的KL散度。为的缩写，为的缩写。

较佳的，在步骤S121，中通过获得相应的潜变量z，潜变量z经过解码器，可以通过重构获得虚拟样本；其中为N(0,1)的正态分布中随机采样得到的值，μ 表示潜变量的均值，为潜变量的标准差。

较佳的，在步骤S2包括步骤：

S21、利用预训练的软测量神经网络模型对虚拟过程样本进行处理以获取虚拟质量样本；

S22、获取扩展训练数据集，扩展训练数据集重新输入训练模型获取更新后的软测量神经网络模型。

较佳的，在步骤S3中，虚拟质量样本的获取过程为：

其中，函数指的是预训练的软测量神经网络模型，表示权重参数，b表示偏差。

本发明还提供了一种小样本工业时序数据增强和质量预测系统，所述系统包括：

样本生成模块，用以获取历史数据集作为训练数据集，将历史数据集D输入加入时序解码过程的变分自编码器模型以生成虚拟样本，对虚拟样本样本进行处理后获取虚拟过程样本；

混合训练模块，与所述样本生成模块电连接，用以将输入预训练的软测量神经网络模型以获取虚拟质量样本；将由历史数据集D、虚拟过程样本以及虚拟质量样本组成的扩展训练数据集，由扩展训练数据集对软测量神经网络模型进行更新训练；

预测模块，与所述混合训练模块电连接，将在线输入变量输入更新后的软测量神经网络模型，预测在线质量变量；

其中，所述样本生成模块包括：

预处理单元，用以对工业时序数据进行预处理，获取历史数据集作为训练数据集；

虚拟样本生成单元，与所述预处理单元电连接，用以利用加入时序解码过程的变分自编码器模型，将历史数据集D输入该模型后生成虚拟样本，并对虚拟样本进行筛选扩充，以获取虚拟过程样本；

其中，所述虚拟样本生成单元包括：

潜变量生成子单元，与所述预处理单元电连接，用以将历史数据集D作为模型输入并输入编码器中进行编码，其中编码层包含若干个卷积层，并通过展开操作后，计算获取潜变量z；

时序特征提取子单元，与所述潜变量生成子单元电连接，用于将潜变量z与条件变量c结合后，共同作为输入变量进入解码器，在该解码过程中输入变量分别经过一个趋势性模块、若干个季节性模块以及一个残差模块后，提取各个模型下的时序特征；

虚拟样本获取子单元，与所述时序特征提取子单元电连接，用以将所有的时序特征进行组合处理，获取全新的虚拟样本；

虚拟过程样本获取子单元，与所述虚拟样本获取子单元电连接，用以对虚拟样本进行筛选扩充，获取虚拟过程样本。

较佳的，所述混合训练模块包括：

虚拟质量样本生成单元，与所述虚拟样本生成单元电连接，用以利用预训练的软测量神经网络模型对虚拟过程样本进行处理以获取虚拟质量样本；

扩展训练数据集生成单元，与所述虚拟质量样本生成单元电连接，用以获取扩展训练数据集，并将扩展训练数据集重新输入训练模型获取更新后的软测量神经网络模型。

较佳的，所述虚拟样本生成单元中还包括一损失函数计算子单元，与虚拟样本获取子单元电连接。

上述技术方案具有如下优点或有益效果：在上述一种小样本工业时序数据增强和质量预测方法和系统中，由样本生成阶段、混合训练阶段以及预测阶段三部分组成。与传统的VAE虚拟样本生成方法相比，上述方法加入了时序解码器部分，即通过趋势性模块、季节性模块和残差模块的组合，形成了全新的解码器方法，从而提升了时间序列样本的特征提取和虚拟样本生成的效果。由于时序特征提取更加精准，且加入了条件变量进行控制，所以提升样本多样性和可靠性。此外，在生成虚拟样本的过程中加入了条件变量，使得生成的虚拟样本对于质量变量等重要的输出变量更加敏感，提升了虚拟样本的价值。最后，本方法在损失函数中引入了条件变量c，需要考虑x和c的联合概率分布等复杂情况，对于损失函数的推导和计算难度更高。最终改进和设计完成的损失函数能够很好地训练得到模型的关键参数，取得了良好的效果。

附图说明

参考所附附图，以更加充分的描述本发明的实施例。然而，所附附图仅用于说明和阐述，并不构成对本发明范围的限制。

图1为本发明一种小样本工业时序数据增强和质量预测方法的流程示意图一；

图2为本发明一种小样本工业时序数据增强和质量预测方法的流程示意图二；

图3为本发明一种小样本工业时序数据增强和质量预测方法的流程示意图三；

图4为本发明一种小样本工业时序数据增强和质量预测方法的流程示意图四；

图5为本发明一种小样本工业时序数据增强和质量预测系统的结构示意图一；

图6为本发明一种小样本工业时序数据增强和质量预测系统的结构示意图二；

图7为本发明一种小样本工业时序数据增强和质量预测系统的结构示意图三；

图8为本发明一种小样本工业时序数据增强和质量预测系统的结构示意图四；

附图中：1、样本生成模块；11、预处理单元；12、虚拟样本生成单元；121、潜变量生成子单元；122、时序特征提取子单元；123、虚拟样本获取子单元；124、虚拟过程样本获取子单元；125、损失函数计算子单元；2、混合训练模块；21、虚拟质量样本生成单元；22、扩展训练数据集生成单元；3、预测模块。

具体实施方式

下面结合附图和具体实施例对本发明一种小样本工业时序数据增强和质量预测方法及系统进行详细说明。

在本发明的描述中，需要理解的是，术语中“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了方便描述本发明和简化描述，而不是指示或者暗示所指的装置或元件必须且具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。同时术语“第一”、“第二”等只是为了区分各部件的名称，并没有主次关系，因此不能理解为对本发明的限制。

实施例一

如图1所示，一种小样本工业时序数据增强和质量预测方法，包括步骤：

S1、获取历史数据集作为训练数据集，将历史数据集D输入加入时序解码过程的变分自编码器模型以生成虚拟样本，对虚拟样本样本进行处理后获取虚拟过程样本；

S2、将输入预训练的软测量神经网络模型以获取虚拟质量样本；将由历史数据集D、虚拟过程样本以及虚拟质量样本组成的扩展训练数据集，由扩展训练数据集对软测量神经网络模型进行更新训练；

S3、将在线输入变量输入更新后的软测量神经网络模型，预测在线质量变量。

具体来说，上述一种小样本工业时序数据增强和质量预测方法，由样本生成阶段、混合训练阶段以及预测阶段组成。首先将历史数据集D输入加入时序解码过程的变分自编码器模型以生成虚拟样本，再将历史数据集D输入变分自编码器模型以生成虚拟样本。然后进入混合训练阶段，在该阶段中，将虚拟过程样本输入软测量神经网络模型以获取虚拟质量样本，再由扩展后的扩展训练数据集对软测量神经网络模型进行更新训练，以获取更新后的软测量神经网络模型。在该过程中，利用软测量神经网络模型建立了过程变量和关键质量变量的回归关系。最后，在预测阶段中，将在线输入变量输入更新后的软测量神经网络模型，预测在线质量变量。在该方法中，提出了一种新的基于时序条件自编码器的数据增强方法，相比于传统的基于VAE的方法相比，加入了时序解码器部分，即通过趋势性模块、季节性模块和残差模块等多个时序性模块的组合，形成了全新的解码器结构，从而提升了时间序列样本的特征提取和虚拟样本生成的效果。

如图2所示，进一步来讲，步骤S1包括步骤：

S12、将历史数据集D输入加入时序解码过程的变分自编码器模型后生成虚拟样本，对虚拟样本进行筛选扩充，获取虚拟过程样本。

在对工业时序数据进行预处理后，我们可以获得历史数据集，其中 X表示N×T×M的一般过程变量，Y表示N×T×m的关键质量变量，式中N表示变量维度，T是时间步长，M和m分别表示过程变量和质量变量的维度。对工业时序数据进行预处理获取历史数据集D之后，由于历史数据集D是一个小样本数据集，通常很难通过直接构建软测量神经网络模型来实现精准的工业过程质量预测。因此，为了扩大原始数据集的规模和质量，首先要进行样本生成，之后再进行混合训练和在线预测。

如图3所示，进一步来讲，在步骤S2包括步骤：

具体来说，在混合训练阶段中，利用预训练的软测量神经网络模型对虚拟过程样本进行处理以获取虚拟质量样本。将上述所有样本进行汇总后获取扩展训练数据集，对扩展训练数据集重新输入训练模型获取更新后的软测量神经网络模型。

在最后的在线预测中，将在线输入变量输入更新后的软测量神经网络模型，预测在线质量变量。

如图3所示，进一步来讲，在步骤S12中，历史数据集D输入加入时序解码过程的变分自编码器模型后生成虚拟样本的过程为：

S121、将历史数据集D作为模型输入并输入编码器中进行编码，其中编码层包含若干个卷积层，并通过展开操作后，计算获取潜变量z；

S122、潜变量z与条件变量c结合后，共同作为输入变量进入解码器，在该解码过程中输入变量分别经过一个趋势性模块、若干个季节性模块以及一个残差模块后，提取各个模型下的时序特征；

S124、对虚拟样本进行筛选扩充，获取虚拟过程样本。

具体来说，在对历史数据集D进行扩充时，用到了变分自编码器模型，该模型由编码器以及解码器构成，其中解码器中又由多个时序性模块构成，如一个趋势性模块、若干个季节性模块以及一残差模块构成。扩充过程中，首先将历史数据集输入编码器中进行编码，获取若干个卷积层，并对卷积层进行展开操作，计算获取潜变量z。之后，经趋势性模块、若干个季节性模块以及残差模块，提取各个模型下的时序特征。最后，将所有的时序特征进行组合处理，获取全新的虚拟样本。在该过程中，与传统的VAE虚拟样本生成模型相比，上述方法加入了时序解码器部分，即通过趋势性模块、季节性模块和残差模块的组合，形成了全新的解码器结构，从而提升了时间序列样本的特征提取和虚拟样本生成的效果。此外，在生成虚拟样本的过程中加入了条件变量，使得生成的虚拟样本对于质量变量等重要的输出变量更加敏感，提升了虚拟样本的价值。

进一步来讲，在步骤S122中，利用趋势性模块提取时序特征的计算公式1-3为：

公式（1）

公式（2）

公式（3）

式中，f为趋势性模块中权重矩阵元素的计算函数，z 表示隐变量，c表示条件变量，为第p个权重的偏差；为步长T的趋势预测结果, 表示由隐变量与条件变量决定的权重系数, 表示趋势特征权重矩阵，为趋势性模块提取的特征。值得指出的是，该式中的指的是维度，其中为随机数。

利用季节性模块提取时序特征的计算公式4-6为：

= 公式（4）

式中f为季节性模块中权重矩阵元素的计算函数，表示季节性模块中由隐变量与条件变量决定的权重系数, 为第s个权重的偏差，指的是维度，其中为随机数。随后，

公式（5）

公式（6）

式中表示季节特征权重矩阵 , 表示季节性模块的输出，即季节性模块下提取的时序特征，指的是维度，其中为随机数。

利用残差模块提取时序特征的计算公式7-8为：

公式（7）

公式（8）

公式（9）

式中H 和 h 由隐变量与条件变量决定的权重系数, 表示残差模块的输出, f表示激活函数, 表示权重矩阵，b表示偏差系数。其中表示分别表示权重向量和偏差向量，in、k分别表示输入通道数和卷积核大小。h[i]表示编码过程中第i次卷积计算的结果，i由卷积核k的大小和数据大小自动确定，从1开始直至卷积计算完毕。j表示单次卷积计算中的偏移计算次数，从1开始直至卷积偏移计算结束，也由卷积核k的大小和数据大小自动确定。表示第i次卷积计算中第j次偏移计算的权重参数，表示第i次卷积计算的偏差。μ表示潜变量的均值，表示潜变量的方差，h表示h[i]的集合。

从正态分布中随机采样后，可以通过获得相应的潜变量z，其中为 N(0,1)的正态分布中随机采样得到的值，为潜变量的标准差。

进一步来讲，虚拟样本，即虚拟样本由潜变量z 与条件变量c结合后形成的输入变量，经趋势性模块、季节性模块和残差模块后获取的所有时序特征构成。

与传统的VAE虚拟样本生成模型相比，上述方法在生成虚拟样本的过程中加入了条件变量，使得生成的虚拟样本对于质量变量等重要的输出变量更加敏感，提升了虚拟样本的价值。

进一步来讲，在步骤S121中，在将历史数据集D输入加入时序解码过程的变分自编码器模型后生成虚拟样本的过程中，条件信息和时间序列数据在编码器网络中被联合编码，以获得潜变量的均值μ和方差σ²。值得指出的是，时间序列数据就是数据增强后的一般过程变量X，条件信息就是数据增强后的关键质量变量Y。之后，将潜变量z与条件变量c 整合，并作为输入传输到解码器网络，生成重构的时间序列数据x。在该过程中，该模型的损失函数如公式（1）所示：

公式（11）

其中，为似然函数，是z在x, c条件下的后验概率分布，x为重构的时间序列数据，c为条件变量。服从一个高斯分布，是和之间的KL散度。为的缩写，为的缩写。该模型将对数似然函数的下限最大化，其中：

公式（12）

与传统的损失函数相比，这里考虑了条件变量c，即在损失函数中新增条件变量 c，为了适配本方法中的训练过程。其中，第一项可以看作是在下生成的数据与原始数据之间的重构误差，第二项表示后验概率和之间的误差。是x在z、c条件下的后验概率分布，表示c的先验概率，表示z的后验概率。

式中KL散度的计算方法如公式（3）所示：

公式（13）

其中和分别表示两个函数的标准差，和分别表示两个函数的均值。

时序条件变分自编码器模型能够更准确地捕捉和表示时间序列数据的特征，并保持数据的时间性质，可以实现季节性、趋势性和非周期残差的综合建模。即为了使得本模型的训练过程能够满足条件建模的需求，相比VAE对损失函数进行了改进。VAE的损失函数中只关注一般变量x的分布情况；而本模型在损失函数中引入了条件变量c，需要考虑x和c的联合概率分布等复杂情况，对于损失函数的推导和计算难度更高。最终改进和设计完成的损失函数能够很好地训练得到模型的关键参数，取得了良好的效果。

进一步来讲，在步骤S3中，虚拟质量样本的获取过程为：

公式（14）

在上述一种小样本工业时序数据增强和质量预测方法中，由样本生成阶段、混合训练阶段以及预测阶段三部分组成。与传统的VAE虚拟样本生成方法相比，上述方法加入了时序解码器部分，即通过趋势性模块、季节性模块和残差模块的组合，形成了全新的解码器方法，从而提升了时间序列样本的特征提取和虚拟样本生成的效果。此外，在生成虚拟样本的过程中加入了条件变量，使得生成的虚拟样本对于质量变量等重要的输出变量更加敏感，提升了虚拟样本的价值。由于时序特征提取更加精准，且加入了条件变量进行控制，所以提升样本多样性和可靠性。最后，本方法在损失函数中引入了条件变量c，需要考虑x和c的联合概率分布等复杂情况，对于损失函数的推导和计算难度更高。最终改进和设计完成的损失函数能够很好地训练得到模型的关键参数，取得了良好的效果。

实施例二

一种小样本工业时序数据增强和质量预测系统，包括：

如图5所示，样本生成模块1，用以获取历史数据集作为训练数据集，将历史数据集D输入加入时序解码过程的变分自编码器模型以生成虚拟样本，对虚拟样本样本进行处理后获取虚拟过程样本；

混合训练模块2，与样本生成模块1电连接，用以将输入预训练的软测量神经网络模型以获取虚拟质量样本；将由历史数据集D、虚拟过程样本以及虚拟质量样本组成的扩展训练数据集，由扩展训练数据集对软测量神经网络模型进行更新训练；

预测模块3，与混合训练模块2电连接，将在线输入变量输入更新后的软测量神经网络模型，预测在线质量变量。

具体来说，上述一种小样本工业时序数据增强和质量预测系统，由样本生成模块 1、混合训练模块2以及预测模块3组成。首先在样本生成模块1中，将历史数据集D输入加入时序解码过程的变分自编码器模型以生成虚拟样本，再将历史数据集D输入时序条件变分自编码器模型以生成虚拟样本。然后进入混合训练模块2后，将虚拟过程样本软测量神经网络模型以获取虚拟质量样本，再由扩展后的扩展训练数据集对软测量神经网络模型进行更新训练，以获取更新后的软测量神经网络模型。在该模块中，利用软测量神经网络模型建立了过程变量和关键质量变量的回归关系。最后，在预测模块3中，将在线输入变量输入更新后的软测量神经网络模型，预测在线质量变量。在该系统中，提出了一种新的基于时序条件自编码器的数据增强方法，相比于传统的基于数据增强预测系统相比，上述系统中的变分自编码器模块中增加了时序解码过程，即通过趋势性模块、季节性模块和残差模块的组合，形成了全新的解码器结构，从而提升了时间序列样本的特征提取和虚拟样本生成的效果。

如图6所示，进一步来讲，样本生成模块1包括：

预处理单元11，用以对工业时序数据进行预处理，获取历史数据集作为训练数据集；

虚拟样本生成单元12，与预处理单元11电连接，用以利用加入时序解码过程的变分自编码器模型，将历史数据集D输入该模型后生成虚拟样本，并对虚拟样本进行筛选扩充，以获取虚拟过程样本。

进一步来讲，如图7所示，混合训练模块2包括：

虚拟质量样本生成单元21，与虚拟样本生成单元12电连接，用以利用预训练的软测量神经网络模型对虚拟过程样本进行处理以获取虚拟质量样本；

扩展训练数据集生成单元22，与虚拟质量样本生成单元21电连接，用以获取扩展训练数据集，并将扩展训练数据集重新输入训练模型获取更新后的软测量神经网络模型。

具体来说，在虚拟质量样本生成单元21中，利用预训练的软测量神经网络模型对虚拟过程样本进行处理以获取虚拟质量样本。扩展训练数据集生成单元22将上述所有样本进行汇总后获取扩展训练数据，对扩展训练数据集重新输入训练模型获取更新后的软测量神经网络模型。

进一步来讲，如图8所示，虚拟样本生成单元12包括：

潜变量生成子单元121，与预处理单元11电连接，用以将历史数据集D作为模型输入并输入编码器中进行编码，其中编码层包含若干个卷积层，并通过展开操作后，计算获取潜变量z；

时序特征提取子单元122，与潜变量生成子单元121电连接，用于将潜变量z与条件变量c结合后，共同作为输入变量进入解码器，在该解码过程中输入变量分别经过一个趋势性模块、若干个季节性模块以及一个残差模块后，提取各个模型下的时序特征；

虚拟样本获取子单元123，与时序特征提取子单元122电连接，用以将所有的时序特征进行组合处理，获取全新的虚拟样本；

虚拟过程样本获取子单元124，与虚拟样本获取子单元123电连接，用以对虚拟样本进行筛选扩充，获取虚拟过程样本。

具体来说，在对历史数据集D进行扩充时，首先利用潜变量生成子单元121对历史数据集D进行编码处理，获取潜变量z。然后由时序特征提取子单元122将潜变量z与条件变量c结合后，共同作为输入变量进入解码器，在该解码过程中输入变量分别经过一个趋势性模块、若干个季节性模块以及一个残差模块后，提取各个模型下的时序特征。最后，经虚拟样本获取子单元123将所有的时序特征进行组合处理，获取全新的虚拟样本，再由虚拟过程样本获取子单元124对虚拟样本进行筛选扩充，获取虚拟过程样本。上述装置加入了时序解码器部分，即通过趋势性模块、季节性模块和残差模块的组合，形成了全新的解码器结构，从而提升了时间序列样本的特征提取和虚拟样本生成的效果。此外，在生成虚拟样本的过程中加入了条件变量，使得生成的虚拟样本对于质量变量等重要的输出变量更加敏感，提升了虚拟样本的价值。

进一步来讲，虚拟样本生成单元12中还包括一损失函数计算子单元125，与时序特征提取子单元122电连接，该损失函数计算子单元125中增加了条件变量c，即在损失函数中新增条件变量c，为了适配本系统中的训练过程。相比于传统的VAE的损失函数模型中只关注一般变量x的分布情况，本虚拟样本生成单元12在损失函数中引入了条件变量c，需要考虑x和c的联合概率分布等复杂情况，对于损失函数的推导和计算难度更高。最终改进和设计完成的损失函数能够很好地训练得到模型的关键参数，取得了良好的效果。

在上述一种小样本工业时序数据增强和质量预测系统中，由样本生成模块1、混合训练模块2段以及预测模块3三部分组成。与传统的VAE虚拟样本生成系统相比，上述系统加入了时序特征提取子单元122，即通过趋势性模块、季节性模块和残差模块的组合，形成了全新的解码器方法，从而提升了时间序列样本的特征提取和虚拟样本生成的效果。此外，在生成虚拟样本的过程中加入了条件变量，使得生成的虚拟样本对于质量变量等重要的输出变量更加敏感，提升了虚拟样本的价值。由于时序特征提取更加精准，且加入了条件变量进行控制，所以提升样本多样性和可靠性。最后，本系统在损失函数计算子单元125中引入了条件变量c，需要考虑x和c的联合概率分布等复杂情况，对于损失函数的推导和计算难度更高。最终改进和设计完成的损失函数能够很好地训练得到模型的关键参数，取得了良好的效果。

对于本领域的技术人员而言，阅读上述说明后，各种变化和修正无疑将显而易见。因此，所附的权利要求书应看作是涵盖本发明的真实意图和范围的全部变化和修正。在权利要求书范围内任何和所有等价的范围与内容，都应认为仍属本发明的意图和范围内。

Claims

1.一种小样本工业时序数据增强和质量预测方法，其特征在于，所述方法包括步骤：

S1、获取历史数据集D＝{(X，Y)}作为训练数据集，将历史数据集D输入加入时序解码过程的变分自编码器模型以生成虚拟样本X_vir，对虚拟样本X_vir样本进行处理后获取虚拟过程样本X_new；

S2、将虚拟过程样本X_new输入预训练的软测量神经网络模型以获取虚拟质量样本Y_new，将由历史数据集D、虚拟过程样本X_new以及虚拟质量样本Y_new组成的扩展训练数据集D_new，由扩展训练数据集D_new对软测量神经网络模型进行更新训练；

S3、将在线输入变量x_t输入更新后的软测量神经网络模型，预测在线质量变量y_t；

其中，步骤S1包括步骤：

S11、对工业时序数据进行预处理，获取历史数据集D＝{(X，Y)}作为训练数据集；

S12、将历史数据集D输入加入时序解码过程的变分自编码器模型后生成虚拟样本X_vir，对虚拟样本X_vir进行筛选扩充，获取虚拟过程样本X_new；

S123、将所有的时序特征进行组合处理，获取全新的虚拟样本X_vir；

S124、对虚拟样本X_vir进行筛选扩充，获取虚拟过程样本X_new；

其中，在步骤S122中，多个时序性模块包括一个趋势性模块、若干个季节性模块以及一个残差模块。

2.根据权利要求1所述的小样本工业时序数据增强和质量预测方法，其特征在于，在步骤S12中，损失函数的计算公式为：

在上式中，为似然函数，p_θ(z|x，c)是z在x，c条件下的后验概率分布，x为重构的时间序列数据，c为条件变量，服从一个高斯分布，是和p_θ(z|x，c)之间的KL散度，为的缩写，p_θ为p_θ(z|x，c)的缩写。

3.根据权利要求1所述的小样本工业时序数据增强和质量预测方法，其特征在于，在步骤S121中通过z＝μ+σ·ε获得相应的潜变量z，潜变量z经过解码器，可以通过重构获得虚拟样本X_vir；其中ε为N(0，1)的正态分布中随机采样得到的值，μ表示潜变量的均值，σ为潜变量的标准差。

4.根据权利要求1所述的小样本工业时序数据增强和质量预测方法，其特征在于，在步骤S2包括步骤：

S21、利用预训练的软测量神经网络模型对虚拟过程样本X_new进行处理以获取虚拟质量样本Y_new；

S22、获取扩展训练数据集D_new＝{(X，Y)，(X_new，Y_new)}，扩展训练数据集D_new重新输入训练模型获取更新后的软测量神经网络模型。

5.根据权利要求1所述的小样本工业时序数据增强和质量预测方法，其特征在于，在步骤S3中，虚拟质量样本Y_new的获取过程为：

Y_new＝f(ωX_new+b)

其中，函数f指的是预训练的软测量神经网络模型，ω表示权重参数，b表示偏差。

6.一种小样本工业时序数据增强和质量预测系统，用于执行如权利要求1-5中任一所述的方法，其特征在于，所述系统包括：

样本生成模块(1)，用以获取历史数据集D＝{(X，Y)}作为训练数据集，将历史数据集D输入加入时序解码过程的变分自编码器模型以生成虚拟样本X_vir，对虚拟样本X_vir样本进行处理后获取虚拟过程样本X_new；

混合训练模块(2)，与所述样本生成模块(1)电连接，用以将X_new输入预训练的软测量神经网络模型以获取虚拟质量样本Y_new；将由历史数据集D、虚拟过程样本X_new以及虚拟质量样本Y_new组成的扩展训练数据集D_new，由扩展训练数据集D_new对软测量神经网络模型进行更新训练；

预测模块(3)，与所述混合训练模块(2)电连接，将在线输入变量x_t输入更新后的软测量神经网络模型，预测在线质量变量y_t；

其中，所述样本生成模块(1)包括：

预处理单元(11)，用以对工业时序数据进行预处理，获取历史数据集D＝{(X，Y)}作为训练数据集；

虚拟样本生成单元(12)，与所述预处理单元(11)电连接，用以利用加入时序解码过程的变分自编码器模型，将历史数据集D输入该模型后生成虚拟样本X_vir，并对虚拟样本X_vir进行筛选扩充，以获取虚拟过程样本X_new；

其中，所述虚拟样本生成单元(12)包括：

潜变量生成子单元(121)，与所述预处理单元(11)电连接，用以将历史数据集D作为模型输入并输入编码器中进行编码，其中编码层包含若干个卷积层，并通过展开操作后，计算获取潜变量z；

时序特征提取子单元(122)，与所述潜变量生成子单元(121)电连接，用于将潜变量z与条件变量c结合后，共同作为输入变量进入解码器，在该解码过程中输入变量分别经过一个趋势性模块、若干个季节性模块以及一个残差模块后，提取各个模型下的时序特征；

虚拟样本获取子单元(123)，与所述时序特征提取子单元(122)电连接，用以将所有的时序特征进行组合处理，获取全新的虚拟样本X_vir；

虚拟过程样本获取子单元(124)，与所述虚拟样本获取子单元(123)电连接，用以对虚拟样本X_vir进行筛选扩充，获取虚拟过程样本X_new。

7.根据权利要求6所述的小样本工业时序数据增强和质量预测系统，其特征在于，所述混合训练模块(2)包括：

虚拟质量样本生成单元(21)，与所述虚拟样本生成单元(12)电连接，用以利用预训练的软测量神经网络模型对虚拟过程样本X_new进行处理以获取虚拟质量样本Y_new；

扩展训练数据集生成单元(22)，与所述虚拟质量样本生成单元(21)电连接，用以获取扩展训练数据集D_new＝{(X，Y)，(X_new，Y_new)}，并将扩展训练数据集D_new重新输入训练模型获取更新后的软测量神经网络模型。

8.根据权利要求6所述的小样本工业时序数据增强和质量预测系统，其特征在于，所述虚拟样本生成单元(12)中还包括一损失函数计算子单元(125)，与时序特征提取子单元(122)电连接。