CN111523683B - 烟草加工中工艺参数预测方法及系统 - Google Patents

烟草加工中工艺参数预测方法及系统 Download PDF

Info

Publication number
CN111523683B
CN111523683B CN202010637890.2A CN202010637890A CN111523683B CN 111523683 B CN111523683 B CN 111523683B CN 202010637890 A CN202010637890 A CN 202010637890A CN 111523683 B CN111523683 B CN 111523683B
Authority
CN
China
Prior art keywords
data set
domain data
target domain
distribution difference
source domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010637890.2A
Other languages
English (en)
Other versions
CN111523683A (zh
Inventor
刘姝君
周霄天
孙强
路瑶
晋文静
金超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cyberinsight Technology Co ltd
Original Assignee
Beijing Cyberinsight Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cyberinsight Technology Co ltd filed Critical Beijing Cyberinsight Technology Co ltd
Priority to CN202010637890.2A priority Critical patent/CN111523683B/zh
Publication of CN111523683A publication Critical patent/CN111523683A/zh
Application granted granted Critical
Publication of CN111523683B publication Critical patent/CN111523683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了一种烟草加工中工艺参数预测方法及系统,该方法包括:在烟草加工相关因素发生变化后,实时采集少量当前生产数据作为目标域数据集;从历史数据库中选出源域数据集;在目标域数据集与源域数据集的分布差异小于设定的差异下限、并且目标域数据集中各特征参数与源域数据集中相应的特征参数的分布差异均小于对应该特征的分布差异阈值时,将源域数据集对应的预测模型作为当前预测模型;在目标域数据集与源域数据集的分布差异小于设定的差异上限时,通过迁移学习得到目标域迁移模型,并将目标域迁移模型作为当前预测模型。利用本发明,在烟草加工相关因素发生变化后,可以快速提升预测系统的性能及适应性,保证预测效果。

Description

烟草加工中工艺参数预测方法及系统
技术领域
本发明涉及生产工艺领域,具体涉及一种烟草加工中工艺参数预测方法及系统。
背景技术
工艺参数优化是提高产品质量、实现生产“零”次品的重要技术手段,在烟草、化工、先进制造等行业领域存在工艺参数优化的旺盛需求。在现有技术中,数据驱动的工艺参数优化方法通常是利用预测模型建立工艺相关变量与质量指标之间的关系,对质量指标进行预测,并寻求在当前环境参数、来料信息的情况下,使质量指标最优的控制参数组合,从而实现工艺参数的优化。
在烟草工艺优化系统中,烟草生产参数如温湿度预测是关键性先决环节。目前,烟草工艺优化场景中通常会涉及到多条产线及多种牌号的烟丝的生产参数预测。不同产线及不同牌号的烟丝工艺参数及生产参数变量分布可能存在一定的差异,而同时又具有一定的相似性。同时,随着时间的变化,同种牌号烟丝的工艺参数及生产参数变量分布同样可能产生变迁。在线上运行过程中,当出现这种数据变迁时,如果不对预测模型做任何调整,模型的预测性能可能会无法满足要求,从而导致后续优化流程失效。而现有的基于传统数据驱动预测技术的参数预测模型虽然可以在单一领域的预测问题上取得比较好的效果,但是无法适应数据分布变迁的问题。一旦随着时间变化或者牌号产线的变化,数据分布发生变化,预测性能很可能无法满足要求而导致整个工艺参数优化系统失效。
发明内容
本发明实施例提供一种烟草加工中工艺参数预测方法及系统,在产线及针对不同牌号烟丝的工艺参数及生产参数发生变化的情况下,可以快速提升预测系统的性能及适应性,保证预测效果。
为此,本发明提供如下技术方案:
一种烟草加工中工艺参数预测方法,所述方法包括:
在烟草加工相关因素发生变化后,实时采集少量当前生产数据,并将其作为目标域数据集,所述烟草加工相关因素包括以下任意一项或多项:烟丝产线、牌号、生产月份;
确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异;所述历史数据库中保存有一个或多个历史生产数据样本子集,每个样本子集对应一个用于对烟草加工中工艺参数进行预测的预测模型;
选出分布差异最小的历史生产数据样本子集作为源域数据集;
确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异下限;
如果是,并且所述目标域数据集中各特征参数与所述源域数据集中相应的特征参数的分布差异均小于对应该特征的分布差异阈值,则将所述源域数据集对应的预测模型作为当前预测模型对烟草加工中工艺参数进行预测;
否则,确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异上限;
如果是,则利用源域数据集或者源域数据集对应的预测模型, 结合目标域数据进行迁移学习训练,得到目标域迁移模型,并将所述目标域迁移模型作为当前预测模型对烟草加工中工艺参数进行预测。
可选地,所述确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异包括:
通过JS散度、或者KL散度、或者Wasserstein距离确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异。
可选地,所述通过Wasserstein距离确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异包括:
对于每个历史生产数据样本子集,分别计算所述目标域数据集中各特征参数与所述历史生产数据样本子集中相应特征参数的Wasserstein距离,并将其中最大的Wasserstein距离值作为所述目标域数据集与所述历史生产数据样本子集的分布差异。
可选地,所述方法还包括按照以下方式确定对应各特征的分布差异阈值:
将所述源域数据集中的数据样本随机划分为两组;
计算划分得到的两组数据样本之间各特征参数的Wasserstein距离值,并对其取均值,得到对应各特征的分布差异均值;
根据对应各特征的分布差异均值确定对应该特征的分布差异阈值。
可选地,所述利用源域数据集或者源域数据集对应的预测模型, 结合目标域数据进行迁移学习训练,得到目标域迁移模型包括:
使用源域数据集和目标域数据集组成的混合数据集训练基于样本迁移方法的迁移学习模型,得到目标域迁移模型;或者
利用目标域数据集对源域数据集对应的预测模型参数进行微调,得到目标域迁移模型。
可选地,所述方法还包括:
在进行迁移学习训练之前,检查所述目标域数据集中的样本量是否达到设定的数量阈值;
如果是,则执行进行迁移学习训练的步骤;
否则,继续采集当前生产数据,并将采集的数据加入所述目标域数据集中,直至得到当前预测模型。
一种烟草加工中工艺参数预测系统,所述系统包括:
数据采集模块,用于在烟草加工相关因素发生变化后,实时采集少量当前生产数据,并将其作为目标域数据集,所述烟草加工相关因素包括以下任意一项或多项:烟丝产线、牌号、生产月份;
分布差异确定模块,用于确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异;
源域确定模块,用于选出分布差异最小的历史生产数据样本子集作为源域数据集;所述历史数据库中保存有一个或多个历史生产数据样本子集,每个样本子集对应一个用于对烟草加工中工艺参数进行预测的预测模型;
第一判断模块,用于确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异下限;
第二判断模块,用于在所述第一判断模块确定所述目标域数据集与所述源域数据集的分布差异小于设定的差异下限时,确定所述目标域数据集中各特征参数与所述源域数据集相应的特征参数的分布差异是否均小于对应该特征的分布差异阈值;
输出模块,用于在所述第二判断模块确定所述目标域数据集中各特征参数与所述源域数据集相应的特征参数的分布差异均小于对应该特征的分布差异阈值时,将所述源域数据集对应的预测模型作为当前预测模型输出,以对烟草加工中工艺参数进行预测;
第三判断模块,用于在所述第一判断模块确定所述目标域数据集与所述源域数据集的分布差异大于等于差异下限、或者在所述第二判断模块确定所述目标域数据集中各特征参数与所述源域数据集相应的特征参数的分布差异不是均小于对应该特征的分布差异阈值时,确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异上限;
迁移学习模块,用于在所述第二判断模块确定所述目标域数据集与所述源域数据集的分布差异小于设定的差异上限时,利用源域数据集或者源域数据集对应的预测模型,结合目标域数据进行迁移学习训练,得到目标域迁移模型;
所述输出模块,还用于将所述目标域迁移模型作为当前预测模型输出,以对烟草加工中工艺参数进行预测。
可选地,所述分布差异确定模块,具体用于通过JS散度、或者KL散度、或者Wasserstein距离确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异。
可选地,所述分布差异确定模块,用于对于每个历史生产数据样本子集,分别计算所述目标域数据集中各特征参数与所述历史生产数据样本子集中相应特征参数的Wasserstein距离,并将其中最大的Wasserstein距离值作为所述目标域数据集与所述历史生产数据样本子集的分布差异。
可选地,所述系统还包括:分布差异阈值确定模块,用于确定对应各特征的分布差异阈值;所述分布差异阈值确定模块包括:
分组单元,用于将所述源域数据集中的数据样本随机划分为两组;
均值计算单元,用于计算划分得到的两组数据样本之间各特征参数的Wasserstein距离值,并对其取均值,得到对应各特征的分布差异均值;
阈值确定单元,用于根据对应各特征的分布差异均值确定对应该特征的分布差异阈值。
可选地,所述迁移学习模块包括:
第一训练单元,用于使用源域数据集和目标域数据集组成的混合数据集训练基于样本迁移方法的迁移学习模型,得到目标域迁移模型;或者
第二训练单元,用于利用目标域数据集对源域数据集对应的预测模型的参数进行微调,得到目标域迁移模型。
可选地,所述系统还包括:
检查模块,用于在所述迁移学习模块对所述源域数据集对应的预测模型进行迁移学习训练之前,检查所述目标域数据集中的样本量是否达到设定的数量阈值;如果是,则触发所述迁移学习模块进行迁移学习训练;否则,触发所述数据采集模块继续采集当前生产数据,并将采集的数据加入所述目标域数据集中,直至得到当前预测模型。
本发明实施例提供的烟草加工中工艺参数预测方法及系统,将迁移学习方法应用在烟草回潮工艺参数预测中,充分利用已累积的产线及牌号烟丝的历史数据(源域数据),提取可利用信息,从而结合尽可能少量新产线和/或牌号烟丝的标注数据(目标域数据),即可在目标域数据的预测上达到更好的效果,大大减少了烟丝产线和/或牌号发生变化后新样本数据的标注和模型的训练时间和效率,在新样本数据上充分结合历史样本数据知识取得性能上的提升。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例烟草加工中工艺参数预测方法的一种流程图;
图2是本发明实施例烟草加工中工艺参数预测方法的另一种流程图;
图3是本发明实施例烟草加工中工艺参数预测的一种结构框图;
图4是本发明实施例烟草加工中工艺参数预测的另一种结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
基于传统数据驱动预测技术的参数预测系统或许可以在单一领域的预测问题上取得比较好的效果,但是无法适应数据分布变迁的问题。同样,在烟草工艺优化及参数预测问题中,一旦随着时间变化或者牌号产线的变化,数据分布发生变化,预测系统的预测性能很大可能无法满足要求而导致整个工艺参数优化失效。
迁移学习作为机器学习的重要分支,关注如何将原始预测任务已有的知识应用于新任务, 核心是找到已有知识和新知识的相似性。迁移学习技术在减小数据累积及标注成本、充分利用历史数据信息提升新领域数据预测性能上有很大的应用价值。
为此,本发明实施例提供一种烟草加工中工艺参数预测方法及系统,将迁移学习方法应用在烟草回潮工艺参数预测中,充分利用已累积的产线及牌号烟丝的历史数据(源域数据),提取可利用信息,从而结合尽可能少量新产线和/或牌号烟丝的标注数据(目标域数据),即可在目标域数据的预测上达到更好的效果。具体地,在烟草加工过程中,利用训练得到的预测模型烟草加工中进行工艺参数预测,而且需要记录每个不同产线和/或牌号和/或月份加工过程中采集的生产数据及用于预测烟草加工中工艺参数的预测模型。一旦产线和/或牌号和/或月份发生变化后,只需采集少量当前生产数据即新的生产数据,并通过与历史生产数据进行分析比较,根据比较结果决定选用历史预测模型或者利用源域数据集或者源域数据集对应的预测模型, 结合目标域数据进行迁移学习训练,得到目标域迁移模型,将其作为当前预测模型对烟草加工中工艺参数进行预测。
需要说明的是,所述预测模型可以是适应不同工艺参数预测的预测模型,比如:用于对出口水分进行预测的预测模型、用于对出料温度进行预测的预测模型等。
初始预测模型,即最初使用的预测模型可以是采用基于数据驱动的模型,当然也可以是采用其它方式建立的模型,对此本发明实施例不做限定。所述初始预测模型的训练过程可以采用现有技术,对此本发明实施例不做限定。当然,针对不同的工艺参数预测,相应的预测模型训练所需的数据样本也会有所不同,相应地,需要采集的生产数据也会有所不同,比如,对于出口水分的预测,采集的生产数据可以包括:入口水分、物料流量等参数。
如图1所示,是本发明实施例烟草加工中工艺参数预测方法的一种流程图,包括以下步骤:
步骤101,在烟草加工相关因素发生变化后,实时采集少量当前生产数据,并将其作为目标域数据集,所述烟草加工相关因素包括以下任意一项或多项:烟丝产线、牌号、生产月份。
在实际应用中,针对不同的工艺参数预测,相应的预测模型训练所需的数据样本也会有所不同。通常需要采集的生产数据主要有设备参数及工艺参数,比如可以包括以下任意一种或多种:烟丝松散回潮物料流量、烟丝松散回潮入口水分、松散回潮入口温度、松散回潮加水流量等。
在本发明实施例中,采集少量当前生产数据,比如数据量达到700个样本(约一个生产批次数据)后,即可执行后续的步骤。
步骤102,确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异。需要说明的是,所述历史生产数据样本子集可以以产线-月份-牌号为单元进行划分。当然,如果将本发明方案只应用于一种产线,所述历史生产数据样本子集也可以以月份-牌号为单元进行划分。所述历史数据库中保存有一个或多个历史生产数据样本子集,一条产线的一个牌号的烟丝数据作为一个样本子集,每个样本子集对应一个用于对烟草加工中工艺参数进行预测的预测模型,该预测模型是在所述样本子集对应的产线-月份-牌号的烟草加工时所使用的预测模型。每个生产数据样本子集中可以包括一个或多个特征参数。
在本发明实施例中,可以通过JS散度、或者KL散度、或者Wasserstein距离等确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异。
下面以Wasserstein距离为度量指标为例进行说明。
Wasserstein距离可以理解为从分布P到分布Q的“最优分布路径”距离度量。Wasserstein距离值越小,两者的分布差异越小。Wasserstein距离的计算如下:对于每一个可能的联合分布,从中采样得到联合分布样本,并计算此联合分布下距离的期望值,并在所有可能分布下对期望值取到下界。
在确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异时,需要针对每个历史生产数据样本子集,计算所述目标域数据集中各特征参数与所述历史历史生产数据样本子集中相应特征参数的Wasserstein距离,并将其中最大的Wasserstein距离值作为所述目标域数据集与该历史生产数据样本子集的分布差异。在计算所述目标域数据集与各历史历史生产数据样本子集的分布差异后,从中选出分布差异最小的历史生产数据样本子集作为源域数据集。
步骤103,选出分布差异最小的历史生产数据样本子集作为源域数据集。
在本发明实施例中,可以根据历史数据库中各历史生产数据样本子集与所述目标域数据集的分布差异来确定源域数据集,具体地,选取历史数据库中与所述目标域数据集分布差异最小的历史生产数据样本子集作为源域数据集。
步骤104,确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异下限;如果是,则执行步骤105;否则,执行步骤107。
步骤105,确定所述目标域数据集中各特征参数与所述源域数据集相应的特征参数的分布差异是否均小于对应该特征的分布差异阈值;如果是,则执行步骤106;否则,执行步骤107。
所述差异阈值可以根据所述源域数据集中各特征参数的分布差异来确定。具体地,可以将所述源域数据集中的数据样本随机划分为两组,然后计算这两组数据样本之间各特征参数的Wasserstein距离值,然后对其取均值,得到对应各特征的分布差异均值,根据对应各特征的分布差异均值确定对应该特征的分布差异阈值,比如,可以将所述分布差异均值5%作为相应的分布差异阈值。
进一步地,如果对应某个特征参数的分布差异大于所述分布差异阈值,则可以将源域数据集和目标域数据集中的该特征参数剔除,以保证后续得到的目标域迁移模型的性能,进而保证预测结果的准确性。
步骤106,将所述源域数据集对应的预测模型作为当前预测模型对烟草加工中工艺参数进行预测。
步骤107,确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异上限;如果是,则执行步骤108;否则,执行步骤109。
步骤108,利用源域数据集或源域数据集对应的预测模型, 结合目标域数据进行迁移学习训练,得到目标域迁移模型,并将所述目标域迁移模型作为当前预测模型对烟草加工中工艺参数进行预测。
在本发明实施例中,迁移学习训练的方式可以有多种,下面分别进行详细说明。
1)基于样本的迁移学习
具体地,使用源域数据集和目标域数据集组成的混合数据集训练基于样本迁移方法的迁移学习模型,得到目标域迁移模型。比如,所述预测模型为采用AdaBoost算法构建的模型,相应地,可以利用目标域数据集和源域数据集混合训练两阶段TrAdaBoost模型。
2)基于模型参数的迁移学习
具体地,利用目标域数据集对所述源域数据集对应的预测模型的参数进行微调,得到目标域迁移模型。
步骤109,利用目标域数据集训练当前预测模型对烟草加工中工艺参数进行预测。
需要说明的是,在源域数据集对应的预测模型采用集成树模型如GBDT、AdaBoost以及正则化多项式回归模型、支持向量回归时,在进行迁移学习时,可以采用上述第1)种基于样本的迁移方法;在源域数据集对应的预测模型为LSTM(Long-Short Term Memory,长短期记忆)模型时,可以采用上述第2)种基于模型参数的迁移方法。当然,在实际应用中可以根据需要来选择使用何种模型,对此本发明实施例不做限定。
进一步地,考虑到迁移学习的效果,在本发明方法另一实施例中,还可以在目标域数据集中的样本量达到设定的数量阈值后,再进行迁移学习。
如图2所示,是本发明实施例烟草加工中工艺参数预测方法的另一种流程图,包括以下步骤:
步骤201,在烟草加工相关因素发生变化后,实时采集少量当前生产数据,并将其作为目标域数据集,所述烟草加工相关因素包括以下任意一项或多项:烟丝产线、牌号、生产月份。
步骤202,确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异。
步骤203,选出分布差异最小的历史生产数据样本子集作为源域数据集。
在本发明实施例中,可以根据历史数据库中各历史生产数据样本子集与所述目标域数据集的分布差异来确定源域数据集,具体地,选取历史数据库中与所述目标域数据集分布差异最小的历史生产数据样本子集作为源域数据集。
步骤204,确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异下限;如果是,则执行步骤205;否则,执行步骤207。
步骤205,确定所述目标域数据集中各特征参数与所述源域数据集相应的特征参数的分布差异是否均小于对应该特征的分布差异阈值;如果是,则执行步骤206;否则,执行步骤207。
步骤206,将所述源域数据集对应的预测模型作为当前预测模型对烟草加工中工艺参数进行预测。
步骤207,确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异上限;如果是,则执行步骤208;否则,执行步骤209。
步骤208,确定所述目标域数据集中的样本量是否达到设定的数量阈值;如果是,则执行步骤210;否则,执行步骤211。
需要说明的是,所述数量阈值可以根据具体迁移学习方式的不同来确定,比如,对于上述第1)种基于样本的迁移学习,所述数量阈值可以是目标域数据集中的数据样本达到源域数据集中的数据样本的1%~20%;而对于上述第2)种基于模型参数的迁移学习,所述数量阈值可以是目标域数据集中的数据样本达到源域数据集中的数据样本的5%~30%。
步骤209,利用目标域数据集训练当前预测模型对烟草加工中工艺参数进行预测。
步骤210,利用源域数据集或源域数据集对应的预测模型, 结合目标域数据进行迁移学习训练,得到目标域迁移模型,并将所述目标域迁移模型作为当前预测模型对烟草加工中工艺参数进行预测。
步骤211,继续采集当前生产数据,并将采集的数据加入所述目标域数据集中,直至得到当前预测模型。
需要说明的是,在实际应用中,上述步骤211中将新采集的数据加入所述目标域数据集中后,可以返回步骤202,如图2中所示,重新确定源域数据集。当然,考虑到在数据量达到一定数量后,其分布规律通常即可处于稳定状态,因此,为了进一步降低计算量,上述步骤211中将新采集的数据加入所述目标域数据集中后,也可以直接返回步骤208,也就是说,不再重新确定源域数据集,只是等待所述目标域数据集中的样本量达到设定的数量阈值,然后进行迁移学习得到目标域迁移模型。
本发明实施例提供的烟草加工中工艺参数预测方法,将迁移学习方法应用在烟草回潮工艺参数预测中,充分利用已累积的产线及牌号烟丝的历史数据(源域数据),提取可利用信息,从而结合尽可能少量新产线和/或牌号烟丝的标注数据(目标域数据),即可在目标域数据的预测上达到更好的效果,大大减少了烟丝产线和/或牌号发生变化后新样本数据的标注和模型的训练时间和效率,在新样本数据上充分结合历史样本数据知识取得性能上的提升。
相应地,本发明还提供一种烟草加工中工艺参数预测系统,如图3所示,是该系统的一种结构框图。
在该实施例中,所述系统包括以下各模块:
数据采集模块301,用于在烟草加工相关因素发生变化后,实时采集少量当前生产数据,并将其作为目标域数据集,所述烟草加工相关因素包括以下任意一项或多项:烟丝产线、牌号、生产月份;
分布差异确定模块302,用于确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异;
源域确定模块303,用于选出分布差异最小的历史生产数据样本子集作为源域数据集;所述历史数据库中保存有一个或多个历史生产数据样本子集,每个样本子集对应一个用于对烟草加工中工艺参数进行预测的预测模型;
第一判断模块304,用于确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异下限;
第二判断模块305,用于在所述第一判断模块304确定所述目标域数据集与所述源域数据集的分布差异小于设定的差异下限时,确定所述目标域数据集中各特征参数与所述源域数据集相应的特征参数的分布差异是否均小于对应该特征的分布差异阈值;
输出模块306,用于在所述第二判断模块305确定所述目标域数据集中各特征参数与所述源域数据集相应的特征参数的分布差异均小于对应该特征的分布差异阈值时,将所述源域数据集对应的预测模型作为当前预测模型输出,以对烟草加工中工艺参数进行预测;
第三判断模块307,用于在所述第一判断模块304确定所述目标域数据集与所述源域数据集的分布差异大于等于差异下限、或者在所述第二判断模块305确定所述目标域数据集中各特征参数与所述源域数据集相应的特征参数的分布差异不是均小于对应该特征的分布差异阈值时,确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异上限;
迁移学习模块308,用于在所述第三判断模块307确定所述目标域数据集与所述源域数据集的分布差异小于设定的差异上限时,利用源域数据集或者源域数据集对应的预测模型, 结合目标域数据进行迁移学习训练,得到目标域迁移模型;
所述输出模块306,还用于将所述目标域迁移模型作为当前预测模型输出,以对烟草加工中工艺参数进行预测。
需要说明的是,在实际应用中,所述输出模块306还需要将得到的当前预测保存到历史数据库中。
在实际应用中,针对不同的工艺参数预测,相应的预测模型训练所需的数据样本也会有所不同。也就是说,数据采集模块301采集的生产数据具体有哪些可以根据应用需要来确定,对此本发明实施例不做限定。数据采集模块301通常需要采集的生产数据主要有设备参数及工艺参数,比如可以包括以下任意一种或多种:烟丝松散回潮物料流量、烟丝松散回潮入口水分、松散回潮入口温度、松散回潮加水流量等。
在本发明实施例中,所述分布差异确定模块302可以通过JS散度、或者KL散度、或者Wasserstein距离确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异。
比如,采用以Wasserstein距离为度量指标,相应地,所述分布差异确定模块302具体可以对于每个历史生产数据样本子集,分别计算所述目标域数据集中各特征参数与所述历史生产数据样本子集中相应特征参数的Wasserstein距离,并将其中最大的Wasserstein距离值作为所述目标域数据集与所述历史生产数据样本子集的分布差异。
在本发明实施例中,所述差异阈值可以由相应的分布差异阈值确定模块(未图示)根据所述源域数据集中各特征参数的分布差异来确定。
所述分布差异阈值确定模块具体可以包括以下各单元:
分组单元,用于将所述源域数据集中的数据样本随机划分为两组;
均值计算单元,用于计算划分得到的两组数据样本之间各特征参数的Wasserstein距离值,并对其取均值,得到对应各特征的分布差异均值;
阈值确定单元,用于根据对应各特征的分布差异均值确定对应该特征的分布差异阈值。比如,可以将所述分布差异均值5%作为相应的分布差异阈值。
需要说明的是,所述分布差异阈值确定模块可以作为本发明系统的一部分,也可以独立于本发明系统,比如,预先对历史数据库中的各历史生产数据样本子集按照上述方式得到相应的分布差异阈值,并将该阈值保存在历史数据库中。
在本发明实施例中,对所述源域数据集对应的预测模型进行迁移学习训练的方式可以有多种,比如,基于样本的迁移学习、基于模型参数的迁移学习。相应地,所述迁移学习模块包括:第一训练单元、或者第二训练单元。其中:
第一训练单元用于使用源域数据集和目标域数据集组成的混合数据集训练基于样本迁移方法的迁移学习模型,得到目标域迁移模型;
所述第二训练单元用于利用目标域数据集对所述源域数据集对应的预测模型的参数进行微调,得到目标域迁移模型。
进一步地,考虑到迁移学习的效果,在本发明系统另一实施例中,还可以在目标域数据集中的样本量达到设定的数量阈值后,再进行迁移学习。
如图4所示,是本发明实施例烟草加工中工艺参数预测的另一种结构框图。
与图3所示实施例的区别在于,在该实施例中,所述系统还包括检查模块401,用于在所述迁移学习模块308对所述源域数据集对应的预测模型进行迁移学习训练之前,检查所述目标域数据集中的样本量是否达到设定的数量阈值;如果是,则触发所述迁移学习模块308对所述源域数据集对应的预测模型进行迁移学习训练;否则,触发所述数据采集模块301继续采集当前生产数据,并将采集的数据加入所述目标域数据集中,直至得到当前预测模型。
本发明实施例提供的烟草加工中工艺参数预测系统,将迁移学习方法应用在烟草回潮工艺参数预测中,充分利用已累积的产线及牌号烟丝的历史数据(源域数据),提取可利用信息,从而结合尽可能少量新产线和/或牌号烟丝的标注数据(目标域数据),即可在目标域数据的预测上达到更好的效果,大大减少了烟丝产线和/或牌号发生变化后新样本数据的标注和模型的训练时间和效率,在新样本数据上充分结合历史样本数据知识取得性能上的提升。
需要说明的是,对于上述本发明系统各实施例而言,由于各模块、单元的功能实现与相应的方法中类似,因此对所述装置各实施例描述得比较简单,相关之处可参见方法实施例的相应部分说明。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称的存储介质,如:ROM/RAM、磁碟、光盘等。
相应地,本发明实施例还提供一种用于烟草加工中工艺参数预测方法的装置,该装置是一种电子设备,比如,可以是移动终端、计算机、平板设备、个人数字助理等。所述电子设备可以包括一个或多个处理器、存储器;其中,所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现前面各实施例所述的方法。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种烟草加工中工艺参数预测方法,其特征在于,所述方法包括:
在烟草加工相关因素发生变化后,实时采集少量当前生产数据,并将其作为目标域数据集,所述烟草加工相关因素包括以下任意一项或多项:烟丝产线、牌号、生产月份;
确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异;所述历史数据库中保存有一个或多个历史生产数据样本子集,每个样本子集对应一个用于对烟草加工中工艺参数进行预测的预测模型;所述预测模型为机器学习模型;
选出分布差异最小的历史生产数据样本子集作为源域数据集;
确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异下限;
如果是,并且所述目标域数据集中各特征参数与所述源域数据集中相应的特征参数的分布差异均小于对应该特征的分布差异阈值,则将所述源域数据集对应的预测模型作为当前预测模型对烟草加工中工艺参数进行预测;
否则,确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异上限;
如果是,则利用源域数据集或者源域数据集对应的预测模型, 结合目标域数据进行迁移学习训练,得到目标域迁移模型,并将所述目标域迁移模型作为当前预测模型对烟草加工中工艺参数进行预测。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异包括:
通过JS散度、或者KL散度、或者Wasserstein距离确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异。
3.根据权利要求2所述的方法,其特征在于,所述通过Wasserstein距离确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异包括:
对于每个历史生产数据样本子集,分别计算所述目标域数据集中各特征参数与所述历史生产数据样本子集中相应特征参数的Wasserstein距离,并将其中最大的Wasserstein距离值作为所述目标域数据集与所述历史生产数据样本子集的分布差异。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括按照以下方式确定对应各特征的分布差异阈值:
将所述源域数据集中的数据样本随机划分为两组;
计算划分得到的两组数据样本之间各特征参数的Wasserstein距离值,并对其取均值,得到对应各特征的分布差异均值;
根据对应各特征的分布差异均值确定对应该特征的分布差异阈值。
5.根据权利要求1所述的方法,其特征在于,所述利用源域数据集或者源域数据集对应的预测模型, 结合目标域数据进行迁移学习训练,得到目标域迁移模型包括:
使用源域数据集和目标域数据集组成的混合数据集训练基于样本迁移方法的迁移学习模型,得到目标域迁移模型;或者
利用目标域数据集对源域数据集对应的预测模型参数进行微调,得到目标域迁移模型。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
在进行迁移学习训练之前,检查所述目标域数据集中的样本量是否达到设定的数量阈值;
如果是,则执行进行迁移学习训练的步骤;
否则,继续采集当前生产数据,并将采集的数据加入所述目标域数据集中,直至得到当前预测模型。
7.一种烟草加工中工艺参数预测系统,其特征在于,所述系统包括:
数据采集模块,用于在烟草加工相关因素发生变化后,实时采集少量当前生产数据,并将其作为目标域数据集,所述烟草加工相关因素包括以下任意一项或多项:烟丝产线、牌号、生产月份;
分布差异确定模块,用于确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异;
源域确定模块,用于选出分布差异最小的历史生产数据样本子集作为源域数据集;所述历史数据库中保存有一个或多个历史生产数据样本子集,每个样本子集对应一个用于对烟草加工中工艺参数进行预测的预测模型;所述预测模型为机器学习模型;
第一判断模块,用于确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异下限;
第二判断模块,用于在所述第一判断模块确定所述目标域数据集与所述源域数据集的分布差异小于设定的差异下限时,确定所述目标域数据集中各特征参数与所述源域数据集相应的特征参数的分布差异是否均小于对应该特征的分布差异阈值;
输出模块,用于在所述第二判断模块确定所述目标域数据集中各特征参数与所述源域数据集相应的特征参数的分布差异均小于对应该特征的分布差异阈值时,将所述源域数据集对应的预测模型作为当前预测模型输出,以对烟草加工中工艺参数进行预测;
第三判断模块,用于在所述第一判断模块确定所述目标域数据集与所述源域数据集的分布差异大于等于差异下限、或者在所述第二判断模块确定所述目标域数据集中各特征参数与所述源域数据集相应的特征参数的分布差异不是均小于对应该特征的分布差异阈值时,确定所述目标域数据集与所述源域数据集的分布差异是否小于设定的差异上限;
迁移学习模块,用于在所述第二判断模块确定所述目标域数据集与所述源域数据集的分布差异小于设定的差异上限时,利用源域数据集或者源域数据集对应的预测模型, 结合目标域数据进行迁移学习训练,得到目标域迁移模型;
所述输出模块,还用于将所述目标域迁移模型作为当前预测模型输出,以对烟草加工中工艺参数进行预测。
8.根据权利要求7所述的系统,其特征在于,
所述分布差异确定模块,具体用于通过JS散度、或者KL散度、或者Wasserstein距离确定所述目标域数据集与历史数据库中记录的各历史生产数据样本子集的分布差异。
9.根据权利要求8所述的系统,其特征在于,
所述分布差异确定模块,用于对于每个历史生产数据样本子集,分别计算所述目标域数据集中各特征参数与所述历史生产数据样本子集中相应特征参数的Wasserstein距离,并将其中最大的Wasserstein距离值作为所述目标域数据集与所述历史生产数据样本子集的分布差异。
10.根据权利要求7所述的系统,其特征在于,所述系统还包括:分布差异阈值确定模块,用于确定对应各特征的分布差异阈值;所述分布差异阈值确定模块包括:
分组单元,用于将所述源域数据集中的数据样本随机划分为两组;
均值计算单元,用于计算划分得到的两组数据样本之间各特征参数的Wasserstein距离值,并对其取均值,得到对应各特征的分布差异均值;
阈值确定单元,用于根据对应各特征的分布差异均值确定对应该特征的分布差异阈值。
11.根据权利要求7所述的系统,其特征在于,所述迁移学习模块包括:
第一训练单元,用于使用源域数据集和目标域数据集组成的混合数据集训练基于样本迁移方法的迁移学习模型,得到目标域迁移模型;或者
第二训练单元,用于利用目标域数据集对源域数据集对应的预测模型的参数进行微调,得到目标域迁移模型。
12.根据权利要求7至11任一项所述的系统,其特征在于,所述系统还包括:
检查模块,用于在所述迁移学习模块对所述源域数据集对应的预测模型进行迁移学习训练之前,检查所述目标域数据集中的样本量是否达到设定的数量阈值;如果是,则触发所述迁移学习模块进行迁移学习训练;否则,触发所述数据采集模块继续采集当前生产数据,并将采集的数据加入所述目标域数据集中,直至得到当前预测模型。
CN202010637890.2A 2020-07-06 2020-07-06 烟草加工中工艺参数预测方法及系统 Active CN111523683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010637890.2A CN111523683B (zh) 2020-07-06 2020-07-06 烟草加工中工艺参数预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010637890.2A CN111523683B (zh) 2020-07-06 2020-07-06 烟草加工中工艺参数预测方法及系统

Publications (2)

Publication Number Publication Date
CN111523683A CN111523683A (zh) 2020-08-11
CN111523683B true CN111523683B (zh) 2020-10-30

Family

ID=71911909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010637890.2A Active CN111523683B (zh) 2020-07-06 2020-07-06 烟草加工中工艺参数预测方法及系统

Country Status (1)

Country Link
CN (1) CN111523683B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112192318B (zh) * 2020-09-28 2022-07-19 北京天泽智云科技有限公司 机加工刀具状态监控方法和系统
CN112819205B (zh) * 2021-01-18 2023-03-24 北京理工大学 工时预测方法、装置及系统
CN113240179B (zh) * 2021-05-18 2022-02-11 重庆邮电大学 融合时空信息的轨道人流量预测方法及系统
CN116561710B (zh) * 2023-05-12 2024-02-02 西咸新区大熊星座智能科技有限公司 基于数据空间转化的焊接参数迁移学习预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120330553A1 (en) * 2011-06-27 2012-12-27 Board Of Regents, The University Of Texas System Method for generating a general enhanced oil recovery and waterflood forecasting model
CN110321960A (zh) * 2019-07-09 2019-10-11 上海新增鼎网络技术有限公司 一种工厂生产要素的预测方法及系统
CN110533251A (zh) * 2019-09-03 2019-12-03 北京天泽智云科技有限公司 提升预测性维护模型适应能力的方法及装置
CN111199305A (zh) * 2018-11-20 2020-05-26 上海烟草集团有限责任公司 基于神经网络的生产能耗预测方法、系统、电子终端及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885770B (zh) * 2017-09-28 2021-12-24 努比亚技术有限公司 目标域数据库构建、样本识别方法、终端及存储介质
CN107944874B (zh) * 2017-12-13 2021-07-20 创新先进技术有限公司 基于迁移学习的风控方法、装置及系统
CN108537168B (zh) * 2018-04-09 2021-12-31 云南大学 基于迁移学习技术的面部表情识别方法
CN110674866B (zh) * 2019-09-23 2021-05-07 兰州理工大学 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法
CN111027716A (zh) * 2019-12-03 2020-04-17 新奥数能科技有限公司 一种负荷预测的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120330553A1 (en) * 2011-06-27 2012-12-27 Board Of Regents, The University Of Texas System Method for generating a general enhanced oil recovery and waterflood forecasting model
CN111199305A (zh) * 2018-11-20 2020-05-26 上海烟草集团有限责任公司 基于神经网络的生产能耗预测方法、系统、电子终端及存储介质
CN110321960A (zh) * 2019-07-09 2019-10-11 上海新增鼎网络技术有限公司 一种工厂生产要素的预测方法及系统
CN110533251A (zh) * 2019-09-03 2019-12-03 北京天泽智云科技有限公司 提升预测性维护模型适应能力的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于梯度提升树的烟草回潮机出料含水率预测;何毅 等;《软件》;20200615;151-157 *

Also Published As

Publication number Publication date
CN111523683A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111523683B (zh) 烟草加工中工艺参数预测方法及系统
CN110097037B (zh) 智能监测方法、装置、存储介质及电子设备
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
CN111210024A (zh) 模型训练方法、装置、计算机设备和存储介质
CN111897861A (zh) 一种内容推荐方法、装置、计算机设备及存储介质
CN113518011B (zh) 异常检测方法和装置、电子设备及计算机可读存储介质
CN114116397A (zh) 一种监控指标的预警归因方法、装置、设备及存储介质
CN111914159B (zh) 一种信息推荐方法及终端
CN113271322B (zh) 异常流量的检测方法和装置、电子设备和存储介质
CN111931056A (zh) 一种推送内容推荐方法及装置
CN112114986A (zh) 数据异常识别方法、装置、服务器和存储介质
CN113313280B (zh) 云平台的巡检方法、电子设备及非易失性存储介质
CN112192318B (zh) 机加工刀具状态监控方法和系统
CN114881989A (zh) 基于小样本目标对象缺陷检测的方法、装置、电子设备
CN111768034A (zh) 一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法
CN113110961B (zh) 设备异常检测方法、装置、计算机设备及可读存储介质
CN101447995A (zh) 一种识别p2p数据流的方法、装置和系统
CN110728395A (zh) 主变短期电力负荷计算方法、装置、计算机和存储介质
CN112565422A (zh) 一种对电力物联网故障数据的识别方法、系统和存储介质
CN116757870A (zh) 一种能源物联网的智慧能源监控数据处理方法及系统
CN111311318A (zh) 用户流失预警的方法、装置、设备及存储介质
CN116629606A (zh) 一种基于电力数据的产业链预警方法、装置、设备及介质
CN110716101B (zh) 电力线路故障定位方法、装置、计算机和存储介质
CN114968933A (zh) 数据中心的日志的分类方法和装置
AU2020335019B2 (en) Evaluation method based on mobile news client and system thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant