CN108647272A - 一种基于数据分布的小样本扩充方法 - Google Patents

一种基于数据分布的小样本扩充方法 Download PDF

Info

Publication number
CN108647272A
CN108647272A CN201810402513.3A CN201810402513A CN108647272A CN 108647272 A CN108647272 A CN 108647272A CN 201810402513 A CN201810402513 A CN 201810402513A CN 108647272 A CN108647272 A CN 108647272A
Authority
CN
China
Prior art keywords
data
sample
training sample
formula
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810402513.3A
Other languages
English (en)
Other versions
CN108647272B (zh
Inventor
熊伟丽
毕略
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201810402513.3A priority Critical patent/CN108647272B/zh
Publication of CN108647272A publication Critical patent/CN108647272A/zh
Application granted granted Critical
Publication of CN108647272B publication Critical patent/CN108647272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于数据分布的小样本扩充方法,属于复杂工业过程建模和软测量领域。在基于数据驱动理论的建模过程中,样本的数量会对所建模型的精度产生影响。针对训练样本数量较少导致模型信息缺失的问题,该方法通过分析数据的分布特征来确定样本扩充的区间范围,通过使用欧氏距离和角度原则进行数据扩充,利用扩充数据完善建模对象在各阶段的信息,并进一步重构建模数据集,能够对关键变量进行精确预测,从而提高产品质量,降低生产成本。

Description

一种基于数据分布的小样本扩充方法
技术领域
本发明涉及一种基于数据分布的小样本扩充方法,属于复杂工业过程建模和软测量领域。
背景技术
在工业过程复杂性日益增加,控制要求不断提高的背景下,通常需要对一些无法或难以直接测量的质量变量进行监控。这些变量有的虽然可用在线分析仪表进行检测,但是价格昂贵,而且可靠性差、具有较大测量滞后,难以在实时检测中广泛的应用。为了解决这类变量的估计和控制问题,软测量技术得到了很大的发展。软测量的原理就是根据某种最优准则,通过选择一组与主导变量(被估计变量)相关的一组辅助变量,建立以辅助变量为输入,被估计变量的最优估计为输出的数学模型。
在数据驱动的软测量建模中,需要通过训练样本来发掘模型对象的过程信息。在许多情况下一个完整工业过程是由多个子阶段组成的。由于各子阶段的特征信息是有差别的,所以在一些样本较少的实际情况中,有限的小样本难以准确的表征过程的整体信息,从而导致所建模型的预测效果会受到影响。现有的方法都只局限于提高样本质量或改进建模方法这两个方面,没有从样本数量的角度出发,来提升模型的泛化性能和预测精度。
发明内容
在一些样本较少的实际情况中,有限的小样本难以准确的表征过程的整体信息,从而导致主导变量估计不准确的问题,在此情况下,若对小样本数据进行某种选择性的扩充,可以使得扩充后样本更加全面的包含各阶段的特征信息。进一步利用重构的建模数据集进行建模,将会大大提高所建模型对主导变量的预测精度。
本发明考虑小样本建模的情况,首先通过分析实际的工业过程,得到数据的分布特征,然后再对已有的小样本进行分组和辅助变量的归一化处理,在数据信息不充足的子区间内,利用欧氏距离和角度原则,选择相似样本进行样本扩充,使得重构的样本集可以更加全面的表征模型各阶段的信息,提升了所建模型的预测精度。
为了解决目前存在的由于有限的小样本不能完整准确的表征工程的整体信息从而导致主导变量估计不准确的问题,本发明提供一种基于数据分布的小样本扩充方法,所述技术方案如下:
步骤1:对工业过程数据进行归一化处理,即令x'=(x-xmin)/(xmax-xmin),其中x为原始训练样本,x'为归一化处理后的训练样本,xmin和xmax分别为原始训练样本集中的最小值与最大值,所述工业过程数据的初始样本符合期望为μ、标准差为σ的对数正态分布;
所述工业过程数据的初始样本数量少于50或原始训练样本所包含的过程信息不完整;
步骤2:计算原始训练样本中每个ln(Yk)的值(其中k=1,…,m),m为原始训练样本数,并找到原始训练样本中主导变量的最大值Ymax和最小值Ymin
所述原始训练样本中包括主导变量和辅助变量;其中,所述主导变量为需要预测的变量,所述辅助变量为直接测得的变量;
步骤3:根据正态分布的3σ原则,将区间(μ-3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间,并且落在区间(μ-3σ,μ-2σ)、(μ-2σ,μ-σ)、(μ-σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1%、13.6%、34.1%、34.1%、13.6%、2.1%;
令ln(Ymax)=μ+3σ,ln(Ymin)=μ-3σ,将原始训练样本以主导变量的大小为分类标准,等距离划分为六组;
步骤4:统计ln(Yk)在六个区间的样本个数,若区间内样本个数不少于理论的分配比率,即分别不少于2.1%、13.6%、34.1%、34.1%、13.6%、2.1%则不作处理;若区间内样本个数小于分配比率则进行样本扩充,扩充步骤如下:
Step1:两两相互计算训练样本之间的相似度;
数据之间相似度的计算方法如下:
a,计算xq和xi之间的欧氏距离和角度:
dqi=||xq,xi||2 (1)
其中,Δxq=xq-xq-1,Δxi=xi-xi-1 (3)
b,如果cosθqi≥0,计算相似度系数sqi:
式中,γ是介于0到1之间的权重系数,如果cosθqi<0,则丢弃数据(xi,yi),计算得到的sqi也在0和1之间,且sqi越接近1,则表示xq和xi的相似度越高;
Step2:取相似度最大的若干组,将每组的2个数据取算术平均数得到新的样本添加到原始训练样本中;
Step3:其他需要扩充的区间亦做上述扩充处理,最后得到扩充过后新的训练样本集;对相似度的阈值进行设置;
通常阈值设置为0.8,当阈值大于0.8表示两个样本符合相似度的要求;
步骤5:对进行样本扩充后得到的训练样本集进行软测量建模;
选择高斯过程回归(Gaussian Process Regression,GPR)模型作为软测量模型;
给定训练样本集X∈RD×N和y∈RN,其中X=[xi∈RD]i=1,…,N,y=[yi∈R]i=1,…,N分别代表D维的输入和输出数据;输入和输出之间的关系由式(5)产生:
y=f(x)+ε (5)
其中,f是未知函数形式;
对于一个新的输入x*,相应的概率预测输出y*的均值和方差如式(7)和式(8)所示:
y*(x*)=cT(x*)C-1y (7)
式中,c(x*)=[c(x*,x1),…,c(x*,xn)]T是训练数据和测试数据之间的协方差矩阵,是训练数据之间的协方差矩阵,I是N×N维的单位矩阵,c(x*,x*)是测试数据的自协方差;
根据协方差函数把输出间的相关关系转化成输入数据之间的函数关系,所述协方差函数选择高斯协方差函数:
式中,v为控制协方差的量度,ωd代表每个成分xd的相对重要性;
对式(8)中的未知参数v,ω1,…,ωD和高斯噪声方差的估计,通过极大似然估计(Maximum Likelihood Estimation,MLE)得到参数
计算参数θ的值包括,将参数θ通过MLE方法进行估计;用共轭梯度法得到优化参数;
步骤6:在获得最优参数θ后,对测试样本x*,采用式(7)和式(8)估计GPR模型的输出值。
可选的,通过分析数据的分布特征来确定样本扩充的区间范围,利用扩充数据完善建模对象在各阶段的信息,进一步重构建模数据集。
所述一种基于数据分布的小样本扩充方法可应用于包含可逆反应的过程,如生物发酵,污水处理,化工生产等领域。
本发明有益效果是:
通过分析实际的工业过程,得到数据的分布特征,然后再对已有的小样本进行分组和辅助变量的归一化处理,在数据信息不充足的子区间内,利用欧氏距离和角度原则,选择相似样本进行小样本扩充,使得重构的样本集可以更加全面的表征模型各阶段的信息,从而提升了所建模型的预测精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是勒夏特列原理图;
图2是丁烷浓度与样本个数关系图;
图3是是生化需氧量指标与样本个数关系图;
图4是小样本扩充的流程图;
图5是均方根误差对比图;
图6是脱丁烷塔过程的传统GPR模型预测图;
图7是脱丁烷塔过程的小样本扩充后GPR模型预测图;
图8是污水处理过程传统GPR模型预测图;
图9是污水处理过程小样本扩充后GPR模型预测图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一:
步骤1:对工业过程数据进行归一化处理,即令x'=(x-xmin)/(xmax-xmin),其中x为原始训练样本,x'为归一化处理后的训练样本,xmin和xmax分别为原始训练样本集中的最小值与最大值,所述工业过程数据的初始样本符合期望为μ、标准差为σ的对数正态分布;
通常在所述工业过程数据的初始样本数量少于50或原始训练样本所包含的过程信息不完整的时候进行基于数据分布的小样本扩充;
步骤2:计算原始训练样本中每个ln(Yk)的值(其中k=1,…,m),m为原始训练样本数,并找到原始训练样本中主导变量的最大值Ymax和最小值Ymin
所述原始训练样本中包括主导变量和辅助变量;其中,所述主导变量为需要预测的变量,所述辅助变量为直接测得的变量;
步骤3:根据正态分布的3σ原则,将区间(μ-3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间,并且落在区间(μ-3σ,μ-2σ)、(μ-2σ,μ-σ)、(μ-σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1%、13.6%、34.1%、34.1%、13.6%、2.1%;
令ln(Ymax)=μ+3σ,ln(Ymin)=μ-3σ,将原始训练样本以主导变量的大小为分类标准,等距离划分为六组;
步骤4:统计ln(Yk)在六个区间的样本个数,若区间内样本个数不少于理论的分配比率,即分别不少于2.1%、13.6%、34.1%、34.1%、13.6%、2.1%则不作处理;若区间内样本个数小于分配比率则进行样本扩充,扩充步骤如下:
Step1:两两相互计算训练样本之间的相似度;
数据之间相似度的计算方法如下:
a,计算xq和xi之间的欧氏距离和角度:
dqi=||xq,xi||2 (1)
其中,Δxq=xq-xq-1,Δxi=xi-xi-1 (3)
b,如果cosθqi≥0,计算相似度系数sqi:
式中,γ是介于0到1之间的权重系数,如果cosθqi<0,则丢弃数据(xi,yi),计算得到的sqi也在0和1之间,且sqi越接近1,则表示xq和xi的相似度越高;
Step2:取相似度最大的若干组,将每组的2个数据取算术平均数得到新的样本添加到原始训练样本中;
Step3:其他需要扩充的区间亦做上述扩充处理,最后得到扩充过后新的训练样本集;对相似度的阈值进行设置;
通常阈值设置为0.8,当阈值大于0.8表示两个样本符合相似度的要求;
步骤5:对进行样本扩充后得到的训练样本集进行软测量建模;
选择GPR模型作为软测量模型;
给定训练样本集X∈RD×N和y∈RN,其中X=[xi∈RD]i=1,…,N,y=[yi∈R]i=1,…,N分别代表D维的输入和输出数据;输入和输出之间的关系由式(5)产生:
y=f(x)+ε (5)
其中,f是未知函数形式;
对于一个新的输入x*,相应的概率预测输出y*的均值和方差如式(7)和式(8)所示:
y*(x*)=cT(x*)C-1y (7)
式中,c(x*)=[c(x*,x1),…,c(x*,xn)]T是训练数据和测试数据之间的协方差矩阵,是训练数据之间的协方差矩阵,I是N×N维的单位矩阵,c(x*,x*)是测试数据的自协方差;
根据协方差函数把输出间的相关关系转化成输入数据之间的函数关系,所述协方差函数选择高斯协方差函数:
式中,v为控制协方差的量度,ωd代表每个成分xd的相对重要性;
对式(8)中的未知参数v,ω1,…,ωD和高斯噪声方差的估计,通过MLE得到参数
计算参数θ的值包括,将参数θ通过MLE方法进行估计;用共轭梯度法得到优化参数;
步骤6:在获得最优参数θ后,对测试样本x*,采用式(7)和式(8)估计GPR模型的输出值。
本发明实施例通过分析实际的工业过程,得到数据的分布特征,然后再对已有的小样本进行分组和辅助变量的归一化处理,在数据信息不充足的子区间内,利用欧氏距离和角度原则,选择相似样本进行小样本扩充,使得重构的样本集可以更加全面的表征模型各阶段的信息,从而提升了所建模型的预测精度。
实施例二:
现代化工领域涉及到的工艺种类繁多,对应的化学反应有很多都是可逆反应。可逆反应从动力学角度分析,在反应开始时,反应物浓度较大,产物浓度较小,所以正反应速率大于逆反应速率;随着反应的进行,反应物浓度不断减小,产物浓度不断增大,所以正反应速率不断减小,逆反应速率不断增大。当正、逆反应速率相等时,系统中各物质的浓度不再发生变化,反应就达到了平衡。此时系统处于动态平衡状态。上述原理被称为勒夏特列原理(化学平衡移动原理),如图1所示。随着反应的进行,正反应速率降低,逆反应速率增大,为了提高生产效率会在反应进行一段时间后,在正反应速率下降较为明显的时候增加反应物,收集生成物。因此在一段时间内化工过程的反应物的浓度总是维持在较高的水平。
勒夏特列原理的应用,一方面可以使某些工业生产过程的转化率达到或接近理论值,另一方面也可以估计工业生产过程反应物浓度的分布特点,即:浓度集中在较低水平,数据特征可近似用对数正态分布来描述,如图2和图3所示的脱丁烷塔和污水处理过程。而在概率论与统计学中,如果X是服从正态分布的随机变量,则exp(X)服从对数正态分布。
针对于上述复杂多变的化工过程,对于初始样本数量较少且符合对数正态分布的工业过程数据,将训练样本以主导变量的大小为分类标准,等距离划分为若干小组。
可以对数据分配数量小于理论个数的分组,根据相似度准则进行数据扩充,完善过程信息。
最终根据得到的新的训练样本集,结合经典的建模算法,用于软测量预估模型的建立。
本实施例以常见的化工过程——脱丁烷塔过程为例。实验数据来自于实际的工业过程,根据本发明提供的一种基于数据分布的小样本扩充方法对预测产品流中丁烷的含量进行预测。
本实施例提供一种基于数据分布的小样本扩充方法,参见图4,所述方法包括:
步骤一:收集输入输出数据组成历史训练数据库。
步骤二:原始训练样本中每组数据的主导变量取对数ln(Yj)(其中j=1,…,N)。以主导变量作为分类的依据,令ln(Ymax)=μ+3σ,ln(Ymin)=μ-3σ,就可以将训练样本以主导变量的大小为分类标准,等距离划分为六组。根据正态分布的3σ原则,可以把区间(μ-3σ,μ+3σ)看作是随机变量ln(Y)实际可能的取值区间,并且落在区间(μ-3σ,μ-2σ)、(μ-2σ,μ-σ)、(μ-σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1%、13.6%、34.1%、34.1%、13.6%、2.1%。
步骤三:若样本个数不少于理论的分配比率则不作处理;对数据分配数量小于理论个数的分组,根据相似度准则进行数据扩充,将需要扩充的组内的训练样本两两相互计算它们之间的相似度,取相似度最大若干组,并且要保证数据之间的相似度的阈值大于设置值0.8,将满足条件的每组的2个数据取算术平均数得到新的样本添加到原始的训练样本中,不满足则删去。其他组亦做上述处理,最后将会得到扩充过后新的训练样本集。
xq和xi为样本集中的两个样本数据(其中q=1,...,N,i=1,...,N,q≠i),则本文数据之间相似度的计算方法如下:
Step1:计算xq和xi之间的欧氏距离和角度:
dqi=||xq,xi||2 (1)
Δxq=xq-xq-1,Δxi=xi-xi-1 (3)
Step2:如果cosθqi≥0,计算相似度系数sqi:
式中,γ是介于0到1之间的权重系数,如果cosθqi<0,丢弃数据(xi,yi),计算得到的sqi也在0和1之间,且sqi越接近1,xq和xi的相似度越高。
步骤四:将经过本文所提方法进行样本扩充后,得到的训练样本集,进行软测量建模,就可以得出质量变量的预估。
上述步骤四中选择的建模方法为GPR,方法如下:
给定训练样本集X∈RD×N和y∈RN,其中X=[xi∈RD]i1,…,N,y=[yi∈R]i=1,…,N分别代表D维的输入和输出数据。输入和输出之间的关系由式(5)产生:
y=f(x)+ε (5)
其中,f是未知函数形式。对于一个新的输入x*,相应的概率预测输出y*的均值和方差如式(7)和式(8)所示:
y*(x*)=cT(x*)C-1y (7)
式中,c(x*)=[c(x*,x1),…,c(x*,xn)]T是训练数据和测试数据之间的协方差矩阵,是训练数据之间的协方差矩阵,I是N×N维的单位矩阵,c(x*,x*)是测试数据的自协方差。
协方差函数可以把输出间的相关关系转化成输入数据之间的函数关系。GPR中协方差矩阵∑可以选择不同的协方差函数c(xi,xj)来产生,但要保证得到的协方差矩阵满足非负正定的关系。本文选择高斯协方差函数:
式中,v为控制协方差的量度,ωd代表每个成分xd的相对重要性。
对式(8)中的未知参数v,ω1,…,ωD和高斯噪声方差的估计,一般方法就是通过MLE得到参数
为了求得参数θ的值,首先将参数θ通过MLE方法进行估计,然后用共轭梯度法得到优化参数。获得最优参数θ后,对于测试样本x*,可以用式(7)和式(8)来估计GPR模型的输出值。
图5是脱丁烷塔流程中,在训练样本分别为500、450…100的情况下,对100组测试数据进行预测。得到的传统GPR建模的均方根误差和小样本扩充后GPR建模的均方根误差的对比。图6、图7是脱丁烷过程在训练样本和测试样本分别为100个的情况下,传统GPR模型的输出预测和小样本扩充后GPR模型的输出预测。通过对比可知,在小样本扩充后的GPR模型对样本实际输出的整体拟合程度大大提高,且训练样本数量越少,所提方法优化作用越明显。
图8,图9分别是污水处理过程传统GPR模型预测图和小样本扩充后GPR模型预测图,仿真结果验证所提方法具有良好的泛化性能。
本发明实施例通过分析实际的工业过程,得到数据的分布特征,然后再对已有的小样本进行分组和辅助变量的归一化处理,在数据信息不充足的子区间内,利用欧氏距离和角度原则,选择相似样本进行小样本扩充,使得重构的样本集可以更加全面的表征模型各阶段的信息,从而提升了所建模型的预测精度。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于数据分布的小样本扩充方法,其特征在于,所述方法包括:
步骤1:对工业过程数据进行归一化处理,即令x'=(x-xmin)/(xmax-xmin),其中x为原始训练样本,x'为归一化处理后的训练样本,xmin和xmax分别为原始训练样本集中的最小值与最大值,所述工业过程数据的原始训练样本符合期望为μ、标准差为σ的对数正态分布;
步骤2:计算原始训练样本中每个ln(Yk)的值(其中k=1,…,m),m为原始训练样本数,并找到原始训练样本中主导变量的最大值Ymax和最小值Ymin;所述主导变量为需要预测的变量;
步骤3:根据正态分布的3σ原则,将区间(μ-3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间,并且落在区间(μ-3σ,μ-2σ)、(μ-2σ,μ-σ)、(μ-σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1%、13.6%、34.1%、34.1%、13.6%、2.1%;
令ln(Ymax)=μ+3σ,ln(Ymin)=μ-3σ,将原始训练样本以主导变量的大小为分类标准,等距离划分为六组;
步骤4:统计ln(Yk)在六个区间的样本个数,若区间内样本个数不少于理论的分配比率,即分别不少于2.1%、13.6%、34.1%、34.1%、13.6%、2.1%则不作处理;若区间内样本个数小于分配比率则进行样本扩充,扩充步骤如下:
Step1:两两相互计算训练样本之间的相似度;
数据之间相似度的计算方法如下:
a,计算xq和xi之间的欧氏距离和角度:
dqi=||xq,xi||2 (1)
其中,Δxq=xq-xq-1,Δxi=xi-xi-1 (3)
b,如果cosθqi≥0,计算相似度系数sqi:
式中,γ是介于0到1之间的权重系数,如果cosθqi<0,则丢弃数据(xi,yi),计算得到的sqi也在0和1之间,且sqi越接近1,则表示xq和xi的相似度越高;
Step2:取相似度最大的若干组,将每组的2个数据取算术平均数得到新的样本添加到原始训练样本中;
Step3:其他需要扩充的区间亦做上述扩充处理,最后得到扩充过后新的训练样本集;对相似度的阈值进行设置;将阈值设置为0.8,当阈值大于0.8表示两个样本符合相似度的要求;
步骤5:对进行样本扩充后得到的训练样本集进行软测量建模;
选择高斯过程回归模型作为软测量模型;
给定训练样本集X∈RD×N和y∈RN,其中X=[xi∈RD]i=1,…,N,y=[yi∈R]i=1,…,N分别代表D维的输入和输出数据;输入和输出之间的关系由式(5)产生:
y=f(x)+ε (5)
其中,f是未知函数形式;
对于一个新的输入x*,相应的概率预测输出y*的均值和方差如式(7)和式(8)所示:
y*(x*)=cT(x*)C-1y (7)
式中,c(x*)=[c(x*,x1),…,c(x*,xn)]T是训练数据和测试数据之间的协方差矩阵,是训练数据之间的协方差矩阵,I是N×N维的单位矩阵,c(x*,x*)是测试数据的自协方差;
根据协方差函数把输出间的相关关系转化成输入数据之间的函数关系,所述协方差函数选择高斯协方差函数:
式中,v为控制协方差的量度,ωd代表每个成分xd的相对重要性;
对式(8)中的未知参数v,ω1,…,ωD和高斯噪声方差的估计,通过极大似然估计得到参数
计算参数θ的值包括,将参数θ通过极大似然估计方法进行估计;用共轭梯度法得到优化参数;
步骤6:在获得最优参数θ后,对测试样本x*,采用式(7)和式(8)估计高斯过程回归模型的输出值。
2.根据权利要求1所述的方法,其特征在于,通过分析数据的分布特征来确定样本扩充的区间范围,利用扩充数据完善建模对象在各阶段的信息,并进一步重构建模数据集,提升所建模型的预测精度。
CN201810402513.3A 2018-04-28 2018-04-28 一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法 Active CN108647272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810402513.3A CN108647272B (zh) 2018-04-28 2018-04-28 一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810402513.3A CN108647272B (zh) 2018-04-28 2018-04-28 一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法

Publications (2)

Publication Number Publication Date
CN108647272A true CN108647272A (zh) 2018-10-12
CN108647272B CN108647272B (zh) 2020-12-29

Family

ID=63748179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810402513.3A Active CN108647272B (zh) 2018-04-28 2018-04-28 一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法

Country Status (1)

Country Link
CN (1) CN108647272B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558893A (zh) * 2018-10-31 2019-04-02 华南理工大学 基于重采样池的快速集成污水处理故障诊断方法
CN109670595A (zh) * 2019-03-04 2019-04-23 丽水学院 一种设备故障诊断方法
CN110046247A (zh) * 2019-03-06 2019-07-23 阿里巴巴集团控股有限公司 样本数据处理方法及装置、模型训练方法及设备
CN111222575A (zh) * 2020-01-07 2020-06-02 北京联合大学 一种基于hrrp目标识别的klxs多模型融合方法及系统
CN111400499A (zh) * 2020-03-24 2020-07-10 网易(杭州)网络有限公司 文档分类模型的训练方法、文档分类方法、装置及设备
CN111430025A (zh) * 2020-03-10 2020-07-17 清华大学 一种基于医疗影像数据扩增的疾病诊断方法
CN111695608A (zh) * 2020-05-27 2020-09-22 电子科技大学 一种在保留原样本分布特征的数据扩大方法
CN112419098A (zh) * 2020-12-10 2021-02-26 清华大学 基于安全信息熵的电网安全稳定仿真样本筛选扩充方法
CN112580682A (zh) * 2020-11-16 2021-03-30 河海大学 基于多任务高斯过程的大坝监测系统缺失数据重构方法
CN113536770A (zh) * 2021-09-09 2021-10-22 平安科技(深圳)有限公司 基于人工智能的文本解析方法、装置、设备及存储介质
CN114493668A (zh) * 2021-12-28 2022-05-13 北京五八信息技术有限公司 车辆信息处理方法、装置、设备及存储介质
CN116881723A (zh) * 2023-09-06 2023-10-13 北京城建设计发展集团股份有限公司 用于既有结构响应预测的数据扩充方法、系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3571819B2 (ja) * 1995-01-09 2004-09-29 富士写真フイルム株式会社 生化学画像解析装置
CN101118610A (zh) * 2007-09-10 2008-02-06 东北大学 稀疏数据过程建模方法
CN101877146A (zh) * 2010-07-15 2010-11-03 北京工业大学 一种扩充三维人脸数据库的方法
CN107451102A (zh) * 2017-07-28 2017-12-08 江南大学 一种改进自训练算法的半监督高斯过程回归软测量建模方法
CN106844553B (zh) * 2016-12-30 2020-05-01 晶赞广告(上海)有限公司 基于样本数据的数据探测和扩充方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3571819B2 (ja) * 1995-01-09 2004-09-29 富士写真フイルム株式会社 生化学画像解析装置
CN101118610A (zh) * 2007-09-10 2008-02-06 东北大学 稀疏数据过程建模方法
CN101877146A (zh) * 2010-07-15 2010-11-03 北京工业大学 一种扩充三维人脸数据库的方法
CN106844553B (zh) * 2016-12-30 2020-05-01 晶赞广告(上海)有限公司 基于样本数据的数据探测和扩充方法及装置
CN107451102A (zh) * 2017-07-28 2017-12-08 江南大学 一种改进自训练算法的半监督高斯过程回归软测量建模方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558893B (zh) * 2018-10-31 2022-12-16 华南理工大学 基于重采样池的快速集成污水处理故障诊断方法
CN109558893A (zh) * 2018-10-31 2019-04-02 华南理工大学 基于重采样池的快速集成污水处理故障诊断方法
CN109670595A (zh) * 2019-03-04 2019-04-23 丽水学院 一种设备故障诊断方法
CN110046247A (zh) * 2019-03-06 2019-07-23 阿里巴巴集团控股有限公司 样本数据处理方法及装置、模型训练方法及设备
CN110046247B (zh) * 2019-03-06 2023-04-07 创新先进技术有限公司 样本数据处理方法及装置、模型训练方法及设备
CN111222575A (zh) * 2020-01-07 2020-06-02 北京联合大学 一种基于hrrp目标识别的klxs多模型融合方法及系统
CN111222575B (zh) * 2020-01-07 2023-11-17 北京联合大学 一种基于hrrp目标识别的klxs多模型融合方法及系统
CN111430025B (zh) * 2020-03-10 2023-07-25 清华大学 一种基于医疗影像数据扩增的疾病诊断模型训练方法
CN111430025A (zh) * 2020-03-10 2020-07-17 清华大学 一种基于医疗影像数据扩增的疾病诊断方法
CN111400499A (zh) * 2020-03-24 2020-07-10 网易(杭州)网络有限公司 文档分类模型的训练方法、文档分类方法、装置及设备
CN111695608B (zh) * 2020-05-27 2022-07-29 电子科技大学 一种在保留原样本分布特征的数据扩大方法
CN111695608A (zh) * 2020-05-27 2020-09-22 电子科技大学 一种在保留原样本分布特征的数据扩大方法
CN112580682A (zh) * 2020-11-16 2021-03-30 河海大学 基于多任务高斯过程的大坝监测系统缺失数据重构方法
CN112419098A (zh) * 2020-12-10 2021-02-26 清华大学 基于安全信息熵的电网安全稳定仿真样本筛选扩充方法
CN112419098B (zh) * 2020-12-10 2024-01-30 清华大学 基于安全信息熵的电网安全稳定仿真样本筛选扩充方法
CN113536770A (zh) * 2021-09-09 2021-10-22 平安科技(深圳)有限公司 基于人工智能的文本解析方法、装置、设备及存储介质
CN113536770B (zh) * 2021-09-09 2021-11-30 平安科技(深圳)有限公司 基于人工智能的文本解析方法、装置、设备及存储介质
CN114493668A (zh) * 2021-12-28 2022-05-13 北京五八信息技术有限公司 车辆信息处理方法、装置、设备及存储介质
CN116881723A (zh) * 2023-09-06 2023-10-13 北京城建设计发展集团股份有限公司 用于既有结构响应预测的数据扩充方法、系统
CN116881723B (zh) * 2023-09-06 2024-02-20 北京城建设计发展集团股份有限公司 用于既有结构响应预测的数据扩充方法、系统

Also Published As

Publication number Publication date
CN108647272B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN108647272A (zh) 一种基于数据分布的小样本扩充方法
CN107451101B (zh) 一种分层集成的高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法
CN111199016A (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
CN102693452A (zh) 基于半监督回归学习的多模型软测量方法
CN113298230B (zh) 一种基于生成对抗网络的不平衡数据集的预测方法
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN110046377B (zh) 一种基于异构相似度的选择性集成即时学习软测量建模方法
CN113012766B (zh) 一种基于在线选择性集成的自适应软测量建模方法
US7587280B2 (en) Genomic data mining using clustering logic and filtering criteria
CN116109195A (zh) 一种基于图卷积神经网络的绩效评估方法及系统
CN115640526A (zh) 钻井风险识别模型及建立方法、识别方法和计算机设备
Sun et al. Knowledge-guided bayesian support vector machine for high-dimensional data with application to analysis of genomics data
CN106599391B (zh) 基于三角形角度值动态加权的关联向量机软测量建模方法
CN110751400B (zh) 一种风险评估方法及装置
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
Liu et al. Fuzzy c-mean algorithm based on Mahalanobis distances and better initial values
Peignier et al. Data-driven gene regulatory networks inference based on classification algorithms
CN105183804A (zh) 一种基于本体的聚类服务方法
CN110673470B (zh) 基于局部加权因子模型的工业非平稳过程软测量建模方法
CN113269217A (zh) 基于Fisher准则的雷达目标分类方法
CN112733903A (zh) 基于svm-rf-dt组合的空气质量监测与告警方法、系统、装置和介质
CN112241832A (zh) 一种产品质量分级评价标准设计方法及系统
CN107784197A (zh) 一种pcr实验优化方法
CN114386196B (zh) 一种板带力学性能预测准确性评估方法
Thakur et al. Engineering graduate salary prediction using principal component analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant