CN108647272A

CN108647272A - 一种基于数据分布的小样本扩充方法

Info

Publication number: CN108647272A
Application number: CN201810402513.3A
Authority: CN
Inventors: 熊伟丽; 毕略
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2018-10-12
Anticipated expiration: 2038-04-28
Also published as: CN108647272B

Abstract

本发明公开了一种基于数据分布的小样本扩充方法，属于复杂工业过程建模和软测量领域。在基于数据驱动理论的建模过程中，样本的数量会对所建模型的精度产生影响。针对训练样本数量较少导致模型信息缺失的问题，该方法通过分析数据的分布特征来确定样本扩充的区间范围，通过使用欧氏距离和角度原则进行数据扩充，利用扩充数据完善建模对象在各阶段的信息，并进一步重构建模数据集，能够对关键变量进行精确预测，从而提高产品质量，降低生产成本。

Description

一种基于数据分布的小样本扩充方法

技术领域

本发明涉及一种基于数据分布的小样本扩充方法，属于复杂工业过程建模和软测量领域。

背景技术

在工业过程复杂性日益增加，控制要求不断提高的背景下，通常需要对一些无法或难以直接测量的质量变量进行监控。这些变量有的虽然可用在线分析仪表进行检测，但是价格昂贵，而且可靠性差、具有较大测量滞后，难以在实时检测中广泛的应用。为了解决这类变量的估计和控制问题，软测量技术得到了很大的发展。软测量的原理就是根据某种最优准则，通过选择一组与主导变量(被估计变量)相关的一组辅助变量，建立以辅助变量为输入，被估计变量的最优估计为输出的数学模型。

在数据驱动的软测量建模中，需要通过训练样本来发掘模型对象的过程信息。在许多情况下一个完整工业过程是由多个子阶段组成的。由于各子阶段的特征信息是有差别的，所以在一些样本较少的实际情况中，有限的小样本难以准确的表征过程的整体信息，从而导致所建模型的预测效果会受到影响。现有的方法都只局限于提高样本质量或改进建模方法这两个方面，没有从样本数量的角度出发，来提升模型的泛化性能和预测精度。

发明内容

在一些样本较少的实际情况中，有限的小样本难以准确的表征过程的整体信息，从而导致主导变量估计不准确的问题，在此情况下，若对小样本数据进行某种选择性的扩充，可以使得扩充后样本更加全面的包含各阶段的特征信息。进一步利用重构的建模数据集进行建模，将会大大提高所建模型对主导变量的预测精度。

本发明考虑小样本建模的情况，首先通过分析实际的工业过程，得到数据的分布特征，然后再对已有的小样本进行分组和辅助变量的归一化处理，在数据信息不充足的子区间内，利用欧氏距离和角度原则，选择相似样本进行样本扩充，使得重构的样本集可以更加全面的表征模型各阶段的信息，提升了所建模型的预测精度。

为了解决目前存在的由于有限的小样本不能完整准确的表征工程的整体信息从而导致主导变量估计不准确的问题，本发明提供一种基于数据分布的小样本扩充方法，所述技术方案如下：

步骤1：对工业过程数据进行归一化处理，即令x'＝(x-x_min)/(x_max-x_min)，其中x为原始训练样本，x'为归一化处理后的训练样本，x_min和x_max分别为原始训练样本集中的最小值与最大值，所述工业过程数据的初始样本符合期望为μ、标准差为σ的对数正态分布；

所述工业过程数据的初始样本数量少于50或原始训练样本所包含的过程信息不完整；

步骤2：计算原始训练样本中每个ln(Y_k)的值(其中k＝1,…,m)，m为原始训练样本数，并找到原始训练样本中主导变量的最大值Y_max和最小值Y_min；

所述原始训练样本中包括主导变量和辅助变量；其中，所述主导变量为需要预测的变量，所述辅助变量为直接测得的变量；

步骤3：根据正态分布的3σ原则，将区间(μ-3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间，并且落在区间(μ-3σ,μ-2σ)、(μ-2σ,μ-σ)、(μ-σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1％、13.6％、34.1％、34.1％、13.6％、2.1％；

令ln(Y_max)＝μ+3σ，ln(Y_min)＝μ-3σ，将原始训练样本以主导变量的大小为分类标准，等距离划分为六组；

步骤4：统计ln(Y_k)在六个区间的样本个数，若区间内样本个数不少于理论的分配比率，即分别不少于2.1％、13.6％、34.1％、34.1％、13.6％、2.1％则不作处理；若区间内样本个数小于分配比率则进行样本扩充，扩充步骤如下：

Step1：两两相互计算训练样本之间的相似度；

数据之间相似度的计算方法如下：

a，计算x_q和x_i之间的欧氏距离和角度：

d_qi＝||x_q,x_i||₂ (1)

其中，Δx_q＝x_q-x_q-₁，Δx_i＝x_i-x_i-1 (3)

b，如果cosθ_qi≥0，计算相似度系数s_qi:

式中，γ是介于0到1之间的权重系数，如果cosθ_qi<0，则丢弃数据(x_i,y_i)，计算得到的s_qi也在0和1之间，且s_qi越接近1，则表示x_q和x_i的相似度越高；

Step2：取相似度最大的若干组，将每组的2个数据取算术平均数得到新的样本添加到原始训练样本中；

Step3：其他需要扩充的区间亦做上述扩充处理，最后得到扩充过后新的训练样本集；对相似度的阈值进行设置；

通常阈值设置为0.8，当阈值大于0.8表示两个样本符合相似度的要求；

步骤5：对进行样本扩充后得到的训练样本集进行软测量建模；

选择高斯过程回归(Gaussian Process Regression，GPR)模型作为软测量模型；

给定训练样本集X∈R^D×N和y∈R^N，其中X＝[x_i∈R^D]_i＝1,…,N，y＝[y_i∈R]_i＝1,…,N分别代表D维的输入和输出数据；输入和输出之间的关系由式(5)产生：

y＝f(x)+ε (5)

其中，f是未知函数形式；

对于一个新的输入x^*，相应的概率预测输出y^*的均值和方差如式(7)和式(8)所示：

y^*(x^*)＝c^T(x^*)C^-1y (7)

式中，c(x^*)＝[c(x^*,x₁),…,c(x^*,x_n)]^T是训练数据和测试数据之间的协方差矩阵，是训练数据之间的协方差矩阵，I是N×N维的单位矩阵，c(x^*,x^*)是测试数据的自协方差；

根据协方差函数把输出间的相关关系转化成输入数据之间的函数关系，所述协方差函数选择高斯协方差函数：

式中，v为控制协方差的量度，ω_d代表每个成分x^d的相对重要性；

对式(8)中的未知参数v,ω₁,…,ω_D和高斯噪声方差的估计，通过极大似然估计(Maximum Likelihood Estimation，MLE)得到参数

计算参数θ的值包括，将参数θ通过MLE方法进行估计；用共轭梯度法得到优化参数；

步骤6：在获得最优参数θ后，对测试样本x^*，采用式(7)和式(8)估计GPR模型的输出值。

可选的，通过分析数据的分布特征来确定样本扩充的区间范围，利用扩充数据完善建模对象在各阶段的信息，进一步重构建模数据集。

所述一种基于数据分布的小样本扩充方法可应用于包含可逆反应的过程，如生物发酵，污水处理，化工生产等领域。

本发明有益效果是：

通过分析实际的工业过程，得到数据的分布特征，然后再对已有的小样本进行分组和辅助变量的归一化处理，在数据信息不充足的子区间内，利用欧氏距离和角度原则，选择相似样本进行小样本扩充，使得重构的样本集可以更加全面的表征模型各阶段的信息，从而提升了所建模型的预测精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是勒夏特列原理图；

图2是丁烷浓度与样本个数关系图；

图3是是生化需氧量指标与样本个数关系图；

图4是小样本扩充的流程图；

图5是均方根误差对比图；

图6是脱丁烷塔过程的传统GPR模型预测图；

图7是脱丁烷塔过程的小样本扩充后GPR模型预测图；

图8是污水处理过程传统GPR模型预测图；

图9是污水处理过程小样本扩充后GPR模型预测图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

通常在所述工业过程数据的初始样本数量少于50或原始训练样本所包含的过程信息不完整的时候进行基于数据分布的小样本扩充；

Step1：两两相互计算训练样本之间的相似度；

数据之间相似度的计算方法如下：

a，计算x_q和x_i之间的欧氏距离和角度：

d_qi＝||x_q,x_i||₂ (1)

其中，Δx_q＝x_q-x_q-₁，Δx_i＝x_i-x_i-1 (3)

b，如果cosθ_qi≥0，计算相似度系数s_qi:

选择GPR模型作为软测量模型；

y＝f(x)+ε (5)

其中，f是未知函数形式；

y^*(x^*)＝c^T(x^*)C^-1y (7)

对式(8)中的未知参数v,ω₁,…,ω_D和高斯噪声方差的估计，通过MLE得到参数

本发明实施例通过分析实际的工业过程，得到数据的分布特征，然后再对已有的小样本进行分组和辅助变量的归一化处理，在数据信息不充足的子区间内，利用欧氏距离和角度原则，选择相似样本进行小样本扩充，使得重构的样本集可以更加全面的表征模型各阶段的信息，从而提升了所建模型的预测精度。

实施例二：

现代化工领域涉及到的工艺种类繁多，对应的化学反应有很多都是可逆反应。可逆反应从动力学角度分析，在反应开始时，反应物浓度较大，产物浓度较小，所以正反应速率大于逆反应速率；随着反应的进行，反应物浓度不断减小，产物浓度不断增大，所以正反应速率不断减小，逆反应速率不断增大。当正、逆反应速率相等时，系统中各物质的浓度不再发生变化，反应就达到了平衡。此时系统处于动态平衡状态。上述原理被称为勒夏特列原理(化学平衡移动原理)，如图1所示。随着反应的进行，正反应速率降低，逆反应速率增大，为了提高生产效率会在反应进行一段时间后，在正反应速率下降较为明显的时候增加反应物，收集生成物。因此在一段时间内化工过程的反应物的浓度总是维持在较高的水平。

勒夏特列原理的应用，一方面可以使某些工业生产过程的转化率达到或接近理论值，另一方面也可以估计工业生产过程反应物浓度的分布特点，即：浓度集中在较低水平，数据特征可近似用对数正态分布来描述，如图2和图3所示的脱丁烷塔和污水处理过程。而在概率论与统计学中，如果X是服从正态分布的随机变量，则exp(X)服从对数正态分布。

针对于上述复杂多变的化工过程，对于初始样本数量较少且符合对数正态分布的工业过程数据，将训练样本以主导变量的大小为分类标准，等距离划分为若干小组。

可以对数据分配数量小于理论个数的分组，根据相似度准则进行数据扩充，完善过程信息。

最终根据得到的新的训练样本集，结合经典的建模算法，用于软测量预估模型的建立。

本实施例以常见的化工过程——脱丁烷塔过程为例。实验数据来自于实际的工业过程，根据本发明提供的一种基于数据分布的小样本扩充方法对预测产品流中丁烷的含量进行预测。

本实施例提供一种基于数据分布的小样本扩充方法，参见图4，所述方法包括：

步骤一：收集输入输出数据组成历史训练数据库。

步骤二：原始训练样本中每组数据的主导变量取对数ln(Y_j)(其中j＝1,…,N)。以主导变量作为分类的依据，令ln(Y_max)＝μ+3σ，ln(Y_min)＝μ-3σ，就可以将训练样本以主导变量的大小为分类标准，等距离划分为六组。根据正态分布的3σ原则，可以把区间(μ-3σ,μ+3σ)看作是随机变量ln(Y)实际可能的取值区间，并且落在区间(μ-3σ,μ-2σ)、(μ-2σ,μ-σ)、(μ-σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1％、13.6％、34.1％、34.1％、13.6％、2.1％。

步骤三：若样本个数不少于理论的分配比率则不作处理；对数据分配数量小于理论个数的分组，根据相似度准则进行数据扩充，将需要扩充的组内的训练样本两两相互计算它们之间的相似度，取相似度最大若干组，并且要保证数据之间的相似度的阈值大于设置值0.8，将满足条件的每组的2个数据取算术平均数得到新的样本添加到原始的训练样本中，不满足则删去。其他组亦做上述处理，最后将会得到扩充过后新的训练样本集。

x_q和x_i为样本集中的两个样本数据(其中q＝1,...,N,i＝1,...,N,q≠i)，则本文数据之间相似度的计算方法如下：

Step1:计算x_q和x_i之间的欧氏距离和角度：

d_qi＝||x_q,x_i||₂ (1)

Δx_q＝x_q-x_q-1，Δx_i＝x_i-x_i-1 (3)

Step2:如果cosθ_qi≥0，计算相似度系数s_qi:

式中，γ是介于0到1之间的权重系数，如果cosθ_qi<0，丢弃数据(x_i,y_i)，计算得到的s_qi也在0和1之间，且s_qi越接近1，x_q和x_i的相似度越高。

步骤四：将经过本文所提方法进行样本扩充后，得到的训练样本集，进行软测量建模，就可以得出质量变量的预估。

上述步骤四中选择的建模方法为GPR，方法如下：

给定训练样本集X∈R^D×N和y∈R^N，其中X＝[x_i∈R^D]_i＝_1,…,N，y＝[yi∈R]_i＝1,…,N分别代表D维的输入和输出数据。输入和输出之间的关系由式(5)产生：

y＝f(x)+ε (5)

其中，f是未知函数形式。对于一个新的输入x^*，相应的概率预测输出y^*的均值和方差如式(7)和式(8)所示：

y^*(x^*)＝c^T(x^*)C^-1y (7)

式中，c(x^*)＝[c(x^*,x₁),…,c(x^*,x_n)]^T是训练数据和测试数据之间的协方差矩阵，是训练数据之间的协方差矩阵，I是N×N维的单位矩阵，c(x^*,x^*)是测试数据的自协方差。

协方差函数可以把输出间的相关关系转化成输入数据之间的函数关系。GPR中协方差矩阵∑可以选择不同的协方差函数c(x_i,x_j)来产生，但要保证得到的协方差矩阵满足非负正定的关系。本文选择高斯协方差函数：

式中，v为控制协方差的量度，ω_d代表每个成分x^d的相对重要性。

对式(8)中的未知参数v,ω₁,…,ω_D和高斯噪声方差的估计，一般方法就是通过MLE得到参数

为了求得参数θ的值，首先将参数θ通过MLE方法进行估计，然后用共轭梯度法得到优化参数。获得最优参数θ后，对于测试样本x^*，可以用式(7)和式(8)来估计GPR模型的输出值。

图5是脱丁烷塔流程中，在训练样本分别为500、450…100的情况下，对100组测试数据进行预测。得到的传统GPR建模的均方根误差和小样本扩充后GPR建模的均方根误差的对比。图6、图7是脱丁烷过程在训练样本和测试样本分别为100个的情况下，传统GPR模型的输出预测和小样本扩充后GPR模型的输出预测。通过对比可知，在小样本扩充后的GPR模型对样本实际输出的整体拟合程度大大提高，且训练样本数量越少，所提方法优化作用越明显。

图8，图9分别是污水处理过程传统GPR模型预测图和小样本扩充后GPR模型预测图，仿真结果验证所提方法具有良好的泛化性能。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据分布的小样本扩充方法，其特征在于，所述方法包括：

步骤1：对工业过程数据进行归一化处理，即令x'＝(x-x_min)/(x_max-x_min)，其中x为原始训练样本，x'为归一化处理后的训练样本，x_min和x_max分别为原始训练样本集中的最小值与最大值，所述工业过程数据的原始训练样本符合期望为μ、标准差为σ的对数正态分布；

步骤2：计算原始训练样本中每个ln(Y_k)的值(其中k＝1,…,m)，m为原始训练样本数，并找到原始训练样本中主导变量的最大值Y_max和最小值Y_min；所述主导变量为需要预测的变量；

Step1：两两相互计算训练样本之间的相似度；

数据之间相似度的计算方法如下：

a，计算x_q和x_i之间的欧氏距离和角度：

d_qi＝||x_q,x_i||₂ (1)

其中，Δx_q＝x_q-x_q-₁，Δx_i＝x_i-x_i-1 (³)

b，如果cosθ_qi≥0，计算相似度系数s_qi:

Step3：其他需要扩充的区间亦做上述扩充处理，最后得到扩充过后新的训练样本集；对相似度的阈值进行设置；将阈值设置为0.8，当阈值大于0.8表示两个样本符合相似度的要求；

选择高斯过程回归模型作为软测量模型；

y＝f(x)+ε (5)

其中，f是未知函数形式；

y^*(x^*)＝c^T(x^*)C^-1y (7)

对式(8)中的未知参数v,ω₁,…,ω_D和高斯噪声方差的估计，通过极大似然估计得到参数

计算参数θ的值包括，将参数θ通过极大似然估计方法进行估计；用共轭梯度法得到优化参数；

步骤6：在获得最优参数θ后，对测试样本x^*，采用式(7)和式(8)估计高斯过程回归模型的输出值。

2.根据权利要求1所述的方法，其特征在于，通过分析数据的分布特征来确定样本扩充的区间范围，利用扩充数据完善建模对象在各阶段的信息，并进一步重构建模数据集，提升所建模型的预测精度。