CN113988311A - 质量变量的预测方法、装置、终端及存储介质 - Google Patents

质量变量的预测方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN113988311A
CN113988311A CN202111286761.4A CN202111286761A CN113988311A CN 113988311 A CN113988311 A CN 113988311A CN 202111286761 A CN202111286761 A CN 202111286761A CN 113988311 A CN113988311 A CN 113988311A
Authority
CN
China
Prior art keywords
data set
training data
quality variable
training
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111286761.4A
Other languages
English (en)
Other versions
CN113988311B (zh
Inventor
熊伟丽
周博文
马君霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202111286761.4A priority Critical patent/CN113988311B/zh
Publication of CN113988311A publication Critical patent/CN113988311A/zh
Application granted granted Critical
Publication of CN113988311B publication Critical patent/CN113988311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请关于一种质量变量的预测方法、装置、终端及存储介质,涉及复杂工业过程建模和故障诊断领域。该方法包括:获取待测数据集;将待测数据集划分为训练集和测试集;基于数据组划分规则将训练集中的至少两个训练数据组划分为样本训练数据组和测试训练数据组;获取与训练数据组对应的样本质量变量数值;基于样本训练数据组与测试训练数据组建立质量变量预测模型;对质量变量预测模型以主动学习的训练方式进行训练;响应于训练完成,输出与待测数据组对应的预测质量变量数值。通过至少两次的数据组划分规则进行样本集的确定,并对应进行机器学习模型的构建,使对于质量变量进行预测的过程中,质量变量的预测结果更加准确。

Description

质量变量的预测方法、装置、终端及存储介质
技术领域
本申请涉及复杂工业过程建模和故障诊断领域,特别涉及一种质量变量的预测方法、装置、终端及存储介质。
背景技术
复杂工业过程广泛存在于炼油、化工等领域,具有多变量、强耦合、强非线性、随机性、大时滞、输出不能在线测量、工况变化大等特点,难以用准确的数学模型描述。
为对于复杂工业过程进行解析,在对于复杂工业过程进行对应分析时,需要确定工业过程当中的质量变量。通常情况下,质量变量的变化情况可以反映复杂工业过程的工况是否正常。
然而,相关技术当中,质量变量的测量方式无法统一。在自动测量复杂工业过程的质量变量的场景下,难以确定对于质量变量的具体测量方式,指示对于质量变量的直接测量的效率以及准确率较低。
发明内容
本申请关于一种质量变量的预测方法、装置、终端及存储介质,能够提高对于质量变量的检测准确率。该技术方案如下:
一方面,提供了一种质量变量的预测方法,该方法包括:
获取待测数据集,待测数据集中包括至少三组待测数据组,至少三组待测数据组用于指示化工过程中的互不重复的至少三个时间段内的工况数据;
将待测数据集划分为训练集和测试集,测试集中包括至少一个测试数据组,训练集中包括至少两个训练数据组;
基于数据组划分规则将训练集中的至少两个训练数据组划分为样本训练数据组和测试训练数据组,划分规则包括依次的随机选取规则以及双层优选规则;
获取与训练数据组对应的样本质量变量数值,并通过样本质量数值变量对样本训练数据组进行标注;
基于样本训练数据组与测试训练数据组建立质量变量预测模型,质量变量预测模型为高斯过程回归模型;
通过样本训练数据组与测试训练数据组,对质量变量预测模型以主动学习的训练方式进行训练;
响应于训练完成,将待测数据组输入质量变量预测模型,输出与待测数据组对应的预测质量变量数值。
另一方面,提供了一种质量变量的预测装置,该装置包括:
获取模块,用于获取待测数据集,待测数据集中包括至少三组待测数据组,至少三组待测数据组用于指示化工过程中的互不重复的至少三个时间段内的工况数据;
划分模块,用于将待测数据集划分为训练集和测试集,测试集中包括至少一个测试数据组,训练集中包括至少两个训练数据组;
基于数据组划分规则将训练集中的至少两个训练数据组划分为样本训练数据组和测试训练数据组,划分规则包括依次的随机选取规则以及双层优选规则;
获取模块,还用于获取与训练数据组对应的样本质量变量数值,并通过样本质量数值变量对样本训练数据组进行标注;
建立模块,用于基于样本训练数据组与测试训练数据组建立质量变量预测模型,质量变量预测模型为高斯过程回归模型;
训练模块,用于通过样本训练数据组与测试训练数据组,对质量变量预测模型以主动学习的训练方式进行训练;
输入模块,用于响应于训练完成,将待测数据组输入质量变量预测模型,输出与待测数据组对应的预测质量变量数值。
另一方面,提供了一种计算机设备,计算机设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,处理器可加载并执行至少一条指令、至少一段程序、代码集或指令集,以实现上述本申请实施例中提供的质量变量的预测方法。
另一方面,提供了一种计算机可读存储介质,可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,处理器可加载并执行至少一条指令、至少一段程序、代码集或指令集,以实现上述本申请实施例中提供的质量变量的预测方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序指令,该计算机程序指令存储于计算机可读存储介质中。处理器从计算机可读存储介质读取该计算机指令,并执行该计算机指令,使得该计算机设备执行如本申请实施例中提供的质量变量的预测方法。
本申请提供的技术方案带来的有益效果至少包括:
在进行复杂工业过程的质量变量确定的过程中,通过获取待测数据集,并且将数据集划分为训练集和测试集,在对应训练集获取样本质量变量数值,以构建质量变量预测模型后,通过质量变量预测模型,最终确定与待测数据组对应的质量变量预测值。在质量变量的软测量过程中,通过至少两次的数据组划分规则进行样本集的确定,并对应进行以主动学习作为学习方式的机器学习模型的构建,使对于质量变量进行预测的过程中,质量变量的预测结果更加准确。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的一种质量变量的预测方法的流程示意图;
图2示出了本申请一个示例性实施例提供的一种质量变量的预测方法的过程示意图;
图3示出了本申请一个示例性实施例提供的另一种质量变量的预测方法的过程示意图;
图4示出了本申请一个示例性实施例提供的一种质量变量的预测装置的结构框图;
图5示出了本申请一个示例性实施例提供的另一种质量变量的预测装置的结构框图;
图6示出了本申请一个示例性实施例提供的一种执行质量变量的预测方法的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请中出现的名词进行解释:
人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能企图了解智能的实质,并生产出一种能以人类智能相似的方式做出反应的智能机器。人工智能目的是使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛。人工智能基础技术包括但不限于传感器技术、人工智能芯片技术、云计算技术、大数据处理技术、机电一体化技术。本申请实施例中所应用的人工智能技术为机器学习技术,且该机器学习设备应用于计算机设备当中。
机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、算法复杂度理论等多个学科领域。机器学习学科专门用于研究计算机怎样模拟或实现人类的学习行为,以使计算机获取新的知识,重新组织已有的知识结构,进而改善自身性能。机器学习通常与深度学习相结合,机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
复杂工业过程,是一类特殊的工业过程,其广泛存在于炼油、化工等领域,具有多变量、强耦合、强非线性、随机性、大时滞、输出不能在线测量、工况变化大等特点,难以用准确的数学模型描述。在本申请中,将列举脱丁烷塔的工作过程、青霉素发酵过程以及硫回收装置是对含硫气体进行处理的过程作为复杂工业过程的三个典型示例。
A、脱丁烷塔的工作过程
脱丁烷塔,是天然气乙烷回收过程中的关键设备之一,其主要功能是完成液化气与稳定轻烃组分分离。在脱丁烷塔的工作过程中,其各个部位的工作状态和工作温度将会发生变化。在一个示例中,当脱丁烷塔处于工作状态时,其塔顶温度、塔顶压力、回流量、下一级流量、塔板温度和塔底不同区域的共计两个温度将会发生变化。在本申请实施例中,为检测天然气回收乙烷过程当中的炼油质量,需要对塔底出气口的丁烷含量进行实时检测。在此情况下,获取丁烷浓度的方法包括但不限于以下两种:
(1)、通过诸如将丁烷浓度传感器直接设置在塔底出气口的方式,通过物理方法直接获取丁烷浓度。
(2)、基于上述七个参数建立软测量模型,将上述七个参数输入软测量模型当中,输出得到对于丁烷浓度的预测值。
由于脱丁烷塔的排出介质成分复杂,且在实际应用过程中,丁烷浓度传感器难以在设置之后进行持续的浓度检测。也即,在脱丁烷塔工作过程中,丁烷浓度是一项质量变量。
B、青霉素发酵过程
青霉素发酵过程是指青霉素产生菌在适合的环境下进行菌体生长和抗生素合成的代谢活动,主要包含产生菌的生长阶段、青霉素合成阶段和产生菌的自溶阶段,在青霉素发酵过程中搅拌机功率(W)、曝气速率(L/h)、底物进料速率(L/h)、进料温度(K)、溶解氧(mmole/L)PH值、发酵罐温度(K)、二氧化碳浓度(mmole/L)、培养体积(L)、产生的热量(卡路里)等9个参数都会对青霉素浓度产生影响。在本申请实施例中,为了减少青霉素发酵过程的生产成本同时提高产品产量,需要尽可能地实现过程的自动控制与优化,然而这些都依赖于过程中产物浓度等关键生物参数的在线准确测量。在此情况下,获取青霉素浓度的方法包括但不限于以下两种:
(1)、通过传感器直接获取青霉素浓度,然而通过传感器获得的青霉素浓度具有时滞性,是已发酵完成的青霉素浓度,无法对将要产生的青霉素浓度进行调控。
(2)、基于上述9个参数中的至少一个参数建立软测量模型,将上述9个参数中的至少一个参数输入软测量模型当中,输出得到对于青霉素浓度的预测值。
C、硫回收装置对含硫气体进行处理的过程
硫回收装置是对含硫气体进行处理,防止对大气造成污染的装置。硫回收过程的主导变量为H2S浓度和SO2浓度,H2S浓度和SO2浓度在工业过程中无法直接通过传感器测量得到,因此需要构建精确的软测量模型实时监控H2S浓度和SO2浓度。气体流,初级空气流,二级空气流,预设位置区域气体流,预设位置区域空气流这5个参数都会对H2S浓度和SO2浓度产生影响。在本申请实施例中,预设位置指示SWS区域。基于上述5个参数建立软测量模型,将上述5个参数输入软测量模型当中,输出得到H2S浓度和SO2浓度的预测值。也即,在硫回收装置对含硫气体进行处理的过程中,质量变量包括H2S浓度和SO2浓度。
图1示出了本申请一个示例性实施例提供的一种质量变量的预测方法的流程示意图,请参考图1,该方法包括:
步骤101,获取待测数据集。
在本申请实施例中,待测数据集中包括至少三组待测数据组,至少三组待测数据组用于指示化工过程中的互不重复的三个时间段内的工况数据。以脱丁烷塔的工作情况为例进行说明,其工况即对应七个参数,也即塔顶温度、塔顶压力、回流量、下一级流量、塔板温度和塔底不同区域的两个温度。本申请实施例对于化工过程中待测数据组的形式以及待测数据组中包含的内容不做限定,但待测数据集中需要包括用于表征化工过程的工作状态的参数。
步骤102,将待测数据集划分为训练集和测试集。
在本申请实施例中,测试集中包括至少一个测试数据组,训练集中包括至少两个训练数据组。测试数据组与训练数据组中的内容与待测数据组中的内容相同,仅是因为属于不同的数据集当中,即被赋予不同的名称。在本申请实施例中,训练集用于对模型进行训练,以完善模型中的参数,测试用于在模型完善后确定未知时间段内的质量变量变化情况。
步骤103,基于数据组划分规则将训练集中的至少两个训练数据组划分为样本训练数据组和测试训练数据组。
在本申请实施例中,用于进行质量变量软测量的模型需要经过初步构建以及二次检验两个过程。在此情况下,在构建模型的过程当中,也需要对于数据集进行划分,即将训练集中的至少两个训练数据组划分为样本训练数据组以及测试训练数据组,其中,样本训练数据组用于对模型的基础参数进行构建,测试训练数据组用于对模型的基础参数进行调整。可选地,在本申请实施例中,数据划分规则包括依次的随机选取规则以及双层优选规则。随机选取规则即为从训练集中的至少两个训练数据组中进行随机选取,双层优选规则即为从训练集中的至少两个训练数据组基于首层优选规则以及次层优选规则进行双层筛选,最终得到样本训练数据组和测试训练数据组的划分结果。在本申请实施例中,随机选取规则与双层优选规则将依次进行,即首先随机选取,之后针对随机选取剩余的训练数据组进行双层优选。
步骤104,获取与训练数据组对应的样本质量变量数值,并通过样本质量变量数值对样本训练数据组进行标注。
在本申请实施例中,针对样本训练数据组中的数据组,获取与该数据组对应的质量变量数值并进行标注。
步骤105,基于样本训练数据组与测试训练数据组建立质量变量预测模型。
可选地,该质量变量预测模型的基本参数由样本训练数据组建立,并由测试训练数据组进行验证及调整。在本申请实施例中,质量变量预测模型为高斯过程回归(Gaussianprocess regression,GPR)模型。
步骤106,通过样本训练数据组与测试训练数据组,对质量变量预测模型以主动学习的训练方式进行训练。
在本申请刚实施例中,如前文所述,样本训练数据组用于建立模型的基本参数,而测试训练数据组用于对丁烷浓度预测模型进行建立与调整。在此情况下,质量变量预测模型以主动学习的训练方式进行训练。
步骤107,响应于训练完成,将待测数据组输入质量变量预测模型,输出与待测数据组对应的预测质量变量数值。
在本申请实施例中,当训练完成后,即可将未被作训练数据组的待测数据组输入质量变量预测模型,输出得到与待测数据组对应的预测质量变量数值。
在本申请实施例中,当而得到与各个数据组对应的预测质量变量数值后,即可生成质量变量数值变化曲线,以对应确定对应的化工设备的具体工作状态。
综上所述,本申请实施例提供的方法,在进行复杂工业过程的质量变量确定的过程中,通过获取待测数据集,并且将数据集划分为训练集和测试集,在对应训练集获取样本质量变量数值,以构建质量变量预测模型后,通过质量变量预测模型,最终确定与待测数据组对应的质量变量预测值。在质量变量的软测量过程中,通过至少两次的数据组划分规则进行样本集的确定,并对应进行以主动学习作为学习方式的机器学习模型的构建,使对于质量变量进行预测的过程中,质量变量的预测结果更加准确。
图2示出了本申请一个示例性实施例提供的一种质量变量的预测方法的过程示意图,请参考图2,该方法包括:
步骤201,获取待测数据集。
该过程与步骤101中所述的过程一致,在此不作赘述。
步骤202,将待测数据集划分为训练集和测试集。
该过程与步骤102中所述的过程一直,在此不作赘述。
步骤203,基于随机选取规则,确定初选样本训练数据组以及初选测试训练数据组。
该过程即为将测试集进行初步划分的过程,在该过程中,选用的选取规则为随机选取规则,可选地,经过随机选取规则,训练集被划分为初选样本训练数据组以及初选测试训练数据组。可选地,初选样本训练数据组对应标注有质量变量数值,初选测试训练数据组暂未标注有质量变量数值。
需要说明的是,在本申请实施例中,进行双层筛选之前,即可基于初选样本训练数据组构建GPR模型。在一个示例中,初选样本训练数据组为
Figure BDA0003332074770000084
其中输入变量XL={X1,X2,...,Xi,...,Xn}i=1,2,...,n,输出变量yL={y1,y2,...,yi,...,yn},nl为样本个数。初选测试训练数据组为
Figure BDA0003332074770000085
nl指示初选样本训练数据组的数量nu指示初选测试训练数据组的数量。对应的,初步构建的GPR模型选取了高斯协方差公式如下公式1所示:
Figure BDA0003332074770000081
式中,Xi为训练集样本中第i个样本,Xj为训练集中第j个样本,l为方差尺度,σf 2为信号方差,θ={σf 2,l2}为高斯过程回归模型的超参数。该公式中,δij=1仅在i=j时成立。对于新的样本,在采用极大似然估计和共轭梯度下降法求解最优超参数的情况下,其对应的高斯过程回归均值和方差由如下公式2可得:
公式2:
Figure BDA0003332074770000082
公式3:
Figure BDA0003332074770000083
始终,yq为预测值,也即预测的回归均值,d2为方差。kq=[k(xq,x1),k(xq,x2),...,k(xq,xq)]T为xq与已标记样本,也即初选样本训练数据组的协方差矩阵,k(xq,xq)为预测初选测试训练数据组构建的协方差矩阵。
步骤204,基于初选样本训练数据组构建第一不确定性确定模型和第二不确定性确定模型。
在本申请实施例中,对于初选样本测试数据组进行双层筛选,选取具有较强特征的,也即,信息量高且差异大的初选样本测试数据组加入初选样本训练数据组中,进行模型的构建。
在本申请实施例中,对于初选样本数据组中进行首次筛选的过程中,需要经过不确定性、差异性、以及代表性的权值确定。
步骤205,将初选测试训练数据组输入分别输入第一不确定性确定模型和第二不确定性确定模型,得到第一不确定性预测值以及第二不确定性预测值。
在本申请实施例中,在进行不确定性权值的确定时,计算机设备将基于初选样本训练数据组过建立两个不同的GPR模型f1和f2
步骤206,基于第一不确定性预测值以及第二不确定性预测值确定初选测试训练数据组的不确定性权值。
可选地,将当前仍被确认为初选测试训练组的数据分别输入该两个GPR模型中,输出得到两个预测值y1和y2,并通过如下所示的公式4确定该初选测试训练数据组的不确定性权值。
公式4:q=abs(y1-y2)
式中,q即为初选测试训练数据组的不确定性权值。
步骤207,基于初选样本训练组构建差异性模型。
步骤208,基于差异性模型确定初选测试训练数据组的差异性权值。
在本申请实施例中,差异性模型即为在步骤203中所述的,构建的GPR模型,将初选测试训练数据组输入该GPR模型中,并对应获取其真实的质量变量数值,并取绝对值,即可确定其差异性权值。对应初选测试训练数据组的差异性权值可记作,的确定方式如下公式5以及公式6所示:
公式5:dnm=abs(yP-yL),m=1,...,NLn=1,...,Nu
公式6:
Figure BDA0003332074770000091
n=1,...,Nu
初选测试训练数据组的预测值记作yp,其对应的质量变量数值为yL,无标签样本个数,也即初选测试训练数据组的个数为Nu,有标签样本个数,也即初选样本训练数据组的个数为NL。在此基础上,dnm即体现有标签样本中的第m个样本与无标签样本中的第n个样本之间的交互关系。
步骤209,基于初选测试训练数据组构建代表性模型。
在本申请实施例中,为避免挑选到的初选样本训练数据组为离群样本,影响最终的模型构建过程,故求取每个初选测试训练数据组到其余初选测试训练数据组的平均欧式距离,该欧式距离的公式如下公式7所示:
公式7:
Figure BDA0003332074770000101
式中,
Figure BDA0003332074770000102
指示代表性权值,也即无标签样本到其余无标签样本的平均欧式距离,Xi指示无标签样本中的第i个样本,XU指示无标签样本中的第u个样本,Nu指示无标签样本,初选测试训练数据组的个数。
步骤210,基于代表性模型确定初选测试训练数据组的代表性权值。
如步骤209中所述,
Figure BDA0003332074770000103
指示初选测试训练数据组的代表性权值。
步骤211,基于不确定性权值、差异性权值以及代表性权值确定首层选取评价权值。
在本申请实施例中,首层选取评价权值记作,该首层选取评价权值的评价公式如下公式8所示:
公式8:
Figure BDA0003332074770000104
步骤212,响应于初选测试训练数据组的权值达到首层选取评价权值,确定初选测试训练数据组为首层训练数据组。
在本申请实施例中,将初选测试训练组的权值达到该首层选取评价权值时,即可确定初选测试训练数据组为首层训练数据组,也即,满足该条件的初选测试训练数据组将被作为样本训练数据组,参加质量变量预测模型的构建过程。
步骤213,选取首层评价权值最大的初选测试训练数据组作为对照测试训练数据组,其余初选测试训练数据组作为候选测试训练数据组。
在本申请实施例中,在进行首层筛选后,对于剩余的初选测试训练数据组,从中选取首层评价权值最大的数据组,作为对照,并对其余初选测试训练数据组进行对比,以进行次轮筛选,在此情况下,可以构建包括对照测试训练组在内的待标记样本集S1,以及剩余初选测试训练数据组在内的剩余样本集S2
步骤214,通过对照测试训练数据组与候选测试训练数据组构建一维求值数组。
在本申请的一个示例中,可以通过设置代表及样本集的方式,在构建一维求值数组的情况下进行候选测试训练数据组的筛选。该筛选过程如下公式10以及公式11所示:
公式10:
Figure BDA0003332074770000111
公式11:
Figure BDA0003332074770000112
在上述公式10以及公式11中,式中xl表示待标记样本集Sl中的无标签样本,x表示候选样本集中的剩余样本,||x-xl||表示求取欧氏距离,
Figure BDA0003332074770000113
表示欧氏距离取每行的最小值,d(x,xl)为最小值构成的一维数组,
Figure BDA0003332074770000114
表示对一维数组求取最大值。
步骤215,基于一维求值数组的输出值,从初选测试训练数据组中选取次层测试训练数据组。
在本申请实施例中,当达到计算机设备中预设的挑选数目时,即可确定次层测试训练数据组的数量,并将其作为样本训练数据组,参加质量变量预测模型的构建过程。
步骤216,基于初选测试训练数据组、首层训练数据组以及次层训练数据组确定样本训练数据组和测试训练数据组。
步骤217,获取与所述训练数据组对应的样本质量变量数值,并通过所述样本质量变量数值对所述样本训练数据组进行标注。
可选地,该过程在训练数据组的划分过程中以部分完成,在本申请实施例中,步骤217所述的过程为对于样本训练数据组的标注补充过程。
步骤218,基于所述样本训练数据组与所述测试训练数据组建立质量变量预测模型。
在本申请实施例中,可在步骤203中所构建的模型的基础上进行进一步构建,以生成质量变量预测模型。
步骤219,基于样本训练数据对质量变量预测模型进行前置调整。
在本申请实施例中,该前置调整过程已在步骤203至步骤216的样本集选取过程中完成。
步骤220,将测试训练数据组输入前置调整完成的质量变量预测模型,对质量变量预测模型进行主动学习训练。
在该过程中,响应于质量变量预测模型输出与测试训练数据组的数量对应的质量变量,确定质量变量预测模型的训练完成;
或,
响应于主动学习训练的迭代次数达到次数阈值,确定质量变量预测模型的训练完成。
步骤221,响应于训练完成,将待测数据组输入质量变量预测模型,输出与待测数据组对应的质量变量预测值。
该过程与步骤107所述的过程一致,在此不作赘述。
综上所述,本申请实施例提供的方法,在进行复杂工业过程的质量变量确定的过程中,通过获取待测数据集,并且将数据集划分为训练集和测试集,在对应训练集获取样本质量变量数值,以构建质量变量预测模型后,通过质量变量预测模型,最终确定与待测数据组对应的质量变量预测值。在质量变量的软测量过程中,通过至少两次的数据组划分规则进行样本集的确定,并对应进行以主动学习作为学习方式的机器学习模型的构建,使对于质量变量进行预测的过程中,质量变量的预测结果更加准确。
图3示出了本申请一个示例性实施例提供的另一种质量变量的预测方法的过程示意图,请参考图3,该过程包括:
步骤301,划分样本集。
该过程即为将待测数据集进行划分,确定训练集和测试集的过程。
步骤302,构建GPR模型,预测无标签样本。
该过程即为将训练集进行进一步划分,得到样本训练数据组和测试训练数据组,并基于样本训练数据组初步构建GPR模型,进一步确定无标签样本的过程。
步骤303,第一层优选。
该过程即为在随机选取后,通过首层训练数据组的确定的过程。
步骤304,第二层优选。
该过程即为进行次层训练数据组的优选过程。
步骤305,人工标记,加入有标签样本集。
该过程即为将首层训练数据组和次层训练数据组的进行样本标注,并进一步样本训练数据组的过程,
步骤306,判断是否达到迭代次数。
该过程即指示对于GPR模型的训练过程,若是,则执行步骤307,若否,则执行步骤303。
步骤307,通过GPR模型进行预测。
该过程即为通过质量变量预测模型进行对于与测试集中的测试剧组对应的质量变量数值进行预测的过程。
综上所述,本申请实施例提供的质量变量的预测过程,在进行复杂工业过程的质量变量确定的过程中,通过获取待测数据集,并且将数据集划分为训练集和测试集,在对应训练集获取样本质量变量数值,以构建质量变量预测模型后,通过质量变量预测模型,最终确定与待测数据组对应的质量变量预测值。在质量变量的软测量过程中,通过至少两次的数据组划分规则进行样本集的确定,并对应进行以主动学习作为学习方式的机器学习模型的构建,使对于质量变量进行预测的过程中,质量变量的预测结果更加准确。
图4示出了本申请一个示例性实施例提供的一种质量变量的预测装置的结构框图,该装置包括:
获取模块401,用于获取待测数据集,待测数据集中包括至少三组待测数据组,至少三组待测数据组用于指示化工过程中的互不重复的至少三个时间段内的工况数据;
划分模块402,用于将待测数据集划分为训练集和测试集,测试集中包括至少一个测试数据组,训练集中包括至少两个训练数据组;
基于数据组划分规则将训练集中的至少两个训练数据组划分为样本训练数据组和测试训练数据组,划分规则包括依次的随机选取规则以及双层优选规则;
获取模块401,还用于获取与训练数据组对应的样本质量变量数值,并通过样本质量数值变量对样本训练数据组进行标注;
建立模块403,用于基于样本训练数据组与测试训练数据组建立质量变量预测模型,质量变量预测模型为高斯过程回归模型;
训练模块404,用于通过样本训练数据组与测试训练数据组,对质量变量预测模型以主动学习的训练方式进行训练;
输入模块405,用于响应于训练完成,将待测数据组输入质量变量预测模型,输出与待测数据组对应的预测质量变量数值。
在一个可选的实施例中,请参考图5,该装置,还包括调整模块406,用于基于样本训练数据对质量变量预测模型进行前置调整;
输入模块405,还用于将测试训练数据组输入前置调整完成的质量变量预测模型,对质量变量预测模型进行主动学习训练。
在一个可选的实施例中,将测试训练数据组输入前置调整完成的质量变量预测模型,对质量变量预测模型进行主动学习训练之后,
该装置,还包括确定模块407,用于响应于质量变量预测模型输出与测试训练数据组的数量对应的质量变量数值,确定质量变量预测模型的训练完成;
或,
响应于主动学习训练的迭代次数达到次数阈值,确定质量变量浓度预测模型的训练完成。
在一个可选的实施例中,其特征在于,双层选取规则包括首层选取规则以次层选取规则;
确定模块407,用于基于随机选取规则,确定初选样本训练数据组以及初选测试训练数据组;
该装置,还包括选取模块408,用于基于首层选取规则,从初选测试训练数据组中选取首层训练数据组;
响应于首层训练数据组的选取完成,基于次层选取规则,从初选测试训练数据组中选取次层训练数据组;
确定模块407,用于基于初选测试训练数据组、首层训练数据组以及次层训练数据组确定样本训练数据组和测试训练数据组。
在一个可选的实施例中,确定模块407,还用于基于初选样本训练组构建第一不确定性确定模型和第二不确定性确定模型,第一不确定性确定模型与第二不确定性确定模型均为高斯过程回归模型;
将初选测试训练数据组输入分别输入第一不确定性确定模型和第二不确定性确定模型,得到第一不确定性预测值以及第二不确定性预测值;
基于第一不确定性预测值以及第二不确定性预测值确定初选测试训练数据组的不确定性权值;
建立模块403,还用于基于初选样本训练组构建差异性模型;
确定模块407,还用于基于差异性模型确定初选测试训练数据组的差异性权值;
建立模块403,还用于基于初选测试训练数据组构建代表性模型;
确定模块407,还用于基于代表性模型确定初选测试训练数据组的代表性权值;
基于不确定性权值、差异性权值以及代表性权值确定首层选取评价权值;
响应于初选测试训练数据组的权值达到首层选取评价权值,确定初选测试训练数据组为首层训练数据组。
在一个可选的实施例中,选取模块408,用于选取首层评价权值最大的初选测试训练数据组作为对照测试训练数据组,其余初选测试训练数据组作为候选测试训练数据组;
建立模块403,用于通过对照测试训练数据组与候选测试训练数据组构建一维求值数组;
选取模块408,用于基于一维求值数组的输出值,从初选测试训练数据组中选取次层测试训练数据组。
在一个可选的实施例中,确定模块407,用于确定对照测试训练数据组与候选测试训练数据组的欧式距离;
建立模块403,用于基于欧式距离确定构建一维求值数组。
综上所述,本申请实施例提供的装置,在进行复杂工业过程的质量变量确定的过程中,通过获取待测数据集,并且将数据集划分为训练集和测试集,在对应训练集获取样本质量变量数值,以构建质量变量预测模型后,通过质量变量预测模型,最终确定与待测数据组对应的质量变量预测值。在质量变量的软测量过程中,通过至少两次的数据组划分规则进行样本集的确定,并对应进行以主动学习作为学习方式的机器学习模型的构建,使对于质量变量进行预测的过程中,质量变量的预测结果更加准确。
需要说明的是:上述实施例提供的质量变量的预测装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
图6示出了本申请一个示例性实施例提供的一种执行质量变量的预测方法的计算机设备的结构示意图,该计算机设备包括:
处理器601包括一个或者一个以上处理核心,处理器601通过运行软件程序以及模块,从而执行各种功能应用以及数据处理。
接收器602和发射器603可以实现为一个通信组件,该通信组件可以是一块通信芯片。可选地,该通信组件可以实现包括信号传输功能。也即,发射器603可以用于发射控制信号至图像采集设备以及扫描设备中,接收器602可以用于接收对应的反馈指令。
存储器604通过总线605与处理器601相连。
存储器604可用于存储至少一个指令,处理器601用于执行该至少一个指令,以实现上述方法实施例中的各个步骤。
本申请实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,以由处理器加载并执行以实现上述质量变量的预测方法。
本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的质量变量的预测方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种质量变量的预测方法,其特征在于,所述方法应用于计算机设备中,所述方法包括:
获取待测数据集,所述待测数据集中包括至少三组待测数据组,所述至少三组待测数据组用于指示化工过程中的互不重复的至少三个时间段内的工况数据;
将所述待测数据集划分为训练集和测试集,所述测试集中包括至少一个测试数据组,所述训练集中包括至少两个训练数据组;
基于数据组划分规则将所述训练集中的至少两个训练数据组划分为样本训练数据组和测试训练数据组,所述划分规则包括依次的随机选取规则以及双层优选规则;
获取与所述训练数据组对应的样本质量变量数值,并通过所述样本质量数值变量对所述样本训练数据组进行标注;
基于所述样本训练数据组与所述测试训练数据组建立质量变量预测模型,所述质量变量预测模型为高斯过程回归模型;
通过所述样本训练数据组与所述测试训练数据组,对所述质量变量预测模型以主动学习的训练方式进行训练;
响应于训练完成,将所述待测数据组输入所述质量变量预测模型,输出与所述待测数据组对应的预测质量变量数值。
2.根据权利要求1所述的方法,其特征在于,所述通过所述样本训练数据组与所述测试训练数据组,对所述质量变量预测模型以主动学习的训练方式进行训练,包括:
基于所述样本训练数据对所述质量变量预测模型进行前置调整;
将所述测试训练数据组输入前置调整完成的所述质量变量预测模型,对所述质量变量预测模型进行主动学习训练。
3.根据权利要求2所述的方法,其特征在于,所述将所述测试训练数据组输入前置调整完成的所述质量变量预测模型,对所述质量变量预测模型进行主动学习训练之后,包括:
响应于所述质量变量预测模型输出与所述测试训练数据组的数量对应的预测质量变量数值,确定所述质量变量预测模型的训练完成;
或,
响应于所述主动学习训练的迭代次数达到次数阈值,确定所述质量变量预测模型的训练完成。
4.根据权利要求1至3任一所述的方法,其特征在于,所述双层选取规则包括首层选取规则以次层选取规则;
基于数据组划分规则将所述训练集中的至少两个训练数据组划分为样本训练数据组和测试训练数据组,包括:
基于所述随机选取规则,确定初选样本训练数据组以及初选测试训练数据组;
基于所述首层选取规则,从所述初选测试训练数据组中选取首层训练数据组;
响应于所述首层训练数据组的选取完成,基于所述次层选取规则,从所述初选测试训练数据组中选取次层训练数据组;
基于所述初选测试训练数据组、所述首层训练数据组以及所述次层训练数据组确定所述样本训练数据组和所述测试训练数据组。
5.根据权利要求4所述的方法,其特征在于,所述基于所述首层选取规则从所述初选测试训练数据组中选取首层训练数据组,包括:
基于所述初选样本训练组构建第一不确定性确定模型和第二不确定性确定模型,所述第一不确定性确定模型与所述第二不确定性确定模型均为高斯过程回归模型;
将所述初选测试训练数据组输入分别输入所述第一不确定性确定模型和所述第二不确定性确定模型,得到第一不确定性预测值以及第二不确定性预测值;
基于所述第一不确定性预测值以及所述第二不确定性预测值确定所述初选测试训练数据组的不确定性权值;
基于所述初选样本训练组构建差异性模型;
基于所述差异性模型确定所述初选测试训练数据组的差异性权值;
基于所述初选测试训练数据组构建代表性模型;
基于所述代表性模型确定所述初选测试训练数据组的代表性权值;
基于所述不确定性权值、所述差异性权值以及所述代表性权值确定首层选取评价权值;
响应于所述初选测试训练数据组的权值达到所述首层选取评价权值,确定所述初选测试训练数据组为所述首层训练数据组。
6.根据权利要求5所述的方法,其特征在于,所述响应于所述首层训练数据组的选取完成,基于所述次层选取规则,从所述初选测试训练数据组中选取次层测试训练数据组,包括:
选取所述首层评价权值最大的所述初选测试训练数据组作为对照测试训练数据组,其余初选测试训练数据组作为候选测试训练数据组;
通过所述对照测试训练数据组与所述候选测试训练数据组构建一维求值数组;
基于所述一维求值数组的输出值,从所述初选测试训练数据组中选取次层测试训练数据组。
7.根据权利要求6所述的方法,其特征在于,所述通过所述对照测试训练数据组与所述候选测试训练数据组构建一维求值数组,包括:
确定所述对照测试训练数据组与所述候选测试训练数据组的欧式距离;
基于所述欧式距离确定构建所述一维求值数组。
8.一种质量变量的预测装置,其特征在于,所述装置包括:
获取模块,用于获取待测数据集,所述待测数据集中包括至少三组待测数据组,所述至少三组待测数据组用于指示化工过程中的互不重复的至少三个时间段内的工况数据;
划分模块,用于将所述待测数据集划分为训练集和测试集,所述测试集中包括至少一个测试数据组,所述训练集中包括至少两个训练数据组;
基于数据组划分规则将所述训练集中的至少两个训练数据组划分为样本训练数据组和测试训练数据组,所述划分规则包括依次的随机选取规则以及双层优选规则;
所述获取模块,还用于获取与所述训练数据组对应的样本质量变量数值,并通过所述样本质量数值变量对所述样本训练数据组进行标注;
建立模块,用于基于所述样本训练数据组与所述测试训练数据组建立质量变量预测模型,所述质量变量预测模型为高斯过程回归模型;
训练模块,用于通过所述样本训练数据组与所述测试训练数据组,对所述质量变量预测模型以主动学习的训练方式进行训练;
输入模块,用于响应于训练完成,将所述待测数据组输入所述质量变量预测模型,输出与所述待测数据组对应的预测质量变量数值。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的质量变量的预测方法。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的质量变量的预测方法。
CN202111286761.4A 2021-11-01 2021-11-01 质量变量的预测方法、装置、终端及存储介质 Active CN113988311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111286761.4A CN113988311B (zh) 2021-11-01 2021-11-01 质量变量的预测方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111286761.4A CN113988311B (zh) 2021-11-01 2021-11-01 质量变量的预测方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN113988311A true CN113988311A (zh) 2022-01-28
CN113988311B CN113988311B (zh) 2024-04-16

Family

ID=79745640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111286761.4A Active CN113988311B (zh) 2021-11-01 2021-11-01 质量变量的预测方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN113988311B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741969A (zh) * 2022-04-27 2022-07-12 江南大学 基于fir-nma模型的硫回收软测量建模方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110640982A (zh) * 2019-08-26 2020-01-03 江苏师范大学 一种薄壁注塑件的注塑工艺参数多目标优化方法
US10726356B1 (en) * 2016-08-01 2020-07-28 Amazon Technologies, Inc. Target variable distribution-based acceptance of machine learning test data sets
CN111768000A (zh) * 2020-06-23 2020-10-13 中南大学 在线自适应微调深度学习的工业过程数据建模方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726356B1 (en) * 2016-08-01 2020-07-28 Amazon Technologies, Inc. Target variable distribution-based acceptance of machine learning test data sets
CN110640982A (zh) * 2019-08-26 2020-01-03 江苏师范大学 一种薄壁注塑件的注塑工艺参数多目标优化方法
CN111768000A (zh) * 2020-06-23 2020-10-13 中南大学 在线自适应微调深度学习的工业过程数据建模方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周博文;熊伟丽: "基于协方差矩阵的主动学习方法及应用研究", 系统仿真学报, 17 December 2020 (2020-12-17) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741969A (zh) * 2022-04-27 2022-07-12 江南大学 基于fir-nma模型的硫回收软测量建模方法
CN114741969B (zh) * 2022-04-27 2023-10-31 江南大学 基于fir-nma模型的硫回收软测量建模方法

Also Published As

Publication number Publication date
CN113988311B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN108095716B (zh) 一种基于置信规则库和深度神经网络的心电信号检测方法
US11346831B2 (en) Intelligent detection method for biochemical oxygen demand based on a self-organizing recurrent RBF neural network
CN111460728B (zh) 一种工业设备剩余寿命预测方法、装置、存储介质及设备
CN101799888B (zh) 基于仿生智能蚁群算法的工业软测量方法
Bernal et al. Financial market time series prediction with recurrent neural networks
CN114357594B (zh) 一种基于sca-gru的桥梁异常监测方法、系统、设备及存储介质
CN113378939B (zh) 基于物理驱动神经网络的结构数字孪生建模与参数识别法
CN109615264A (zh) 一种面向在线学习的学生积极度确定系统
CN116401603A (zh) 一种基于迁移学习的多模态轴承故障智能诊断方法
CN113988311B (zh) 质量变量的预测方法、装置、终端及存储介质
CN114239397A (zh) 基于动态特征提取与局部加权深度学习的软测量建模方法
CN113378581B (zh) 一种基于多元概念注意力模型的知识追踪方法及系统
CN113049259B (zh) 台架控制系统的模糊控制方法、存储介质及设备
CN114202060A (zh) 基于深度神经网络的生物质活性炭吸附亚甲基蓝性能预测方法
CN113742983A (zh) 基于深度自编码器神经网络的长跨结构损伤识别方法
CN116842358A (zh) 一种基于多尺度卷积和自适应特征融合的软测量建模方法
CN115064218B (zh) 一种构建病原微生物数据鉴定平台的方法及装置
CN109187898B (zh) 水产养殖环境中水质氨氮含量的软测量方法及装置
CN116662925A (zh) 一种基于加权稀疏神经网络工业过程软测量方法
CN114692507A (zh) 基于堆叠泊松自编码器网络的计数数据软测量建模方法
CN114821322A (zh) 基于注意力机制的小样本遥感影像分类方法及系统
CN114186732A (zh) 助训练框架下的质量变量预测方法、装置终端及介质
CN112883284A (zh) 一种基于网络和数据分析的在线学习系统及测试题推荐方法
CN114841000B (zh) 一种基于模态共有特征分离的软测量建模方法
CN113035363B (zh) 一种概率密度加权的遗传代谢病筛查数据混合采样方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant