CN114359697A

CN114359697A - 一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法

Info

Publication number: CN114359697A
Application number: CN202210033559.9A
Authority: CN
Inventors: 刘小伟; 陈振国; 孙光伟; 裴文灿; 刘竞; 黄金国
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-15

Abstract

本发明属于烟叶晾制技术领域，公开了一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法，提出了基于SGD逻辑分类算法，采用增量学习的模式对烟叶晾制工艺阶段进行识别的融合模型，该模型可结合晾制房采集的晾制数据特点对数据进行预处理和特征选择，通过增量训练的学习模式，逐步提高判断晾制工艺阶段的准确度，优化烟叶晾制的流程，缓解烟农的工作压力，提高烟叶的经济效益。本发明为烟叶数据特征填补大量有效信息，提高了后续模型预测准确度，解决晾制数据中大量噪声的问题，提升了模型训练效率；实现实时、快速判断晾制工艺阶段，同时模型利用后续数据增量再次学习，以此改进烟叶晾制工艺，实现远程、智能、精准晾制。

Description

一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法

技术领域

本发明属于烟叶晾制技术领域，尤其涉及一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法。

背景技术

目前，雪茄烟叶晾制是指采收后的烟叶逐渐干燥，烟叶化学组分逐渐发生变化的过程，是雪茄烟叶外观质量及内在品质形成的重要过程。从生理学角度讲，晾制主要是一种饥饿代谢过程，是烟叶脱水干燥和内部化学物质变化相互协调的过程。其中，作为雪茄烟中单价最高的部分，调制后的茄衣呈现为深棕色且颜色均匀，烟叶较薄、油分足、弹性好、叶脉细而平整，总植物碱、总氮和氯含量均降低，钾含量、钾氯比和氮碱比略升高，燃烧性提高。但在传统的晾制工艺中，调制后烟叶的质量好坏受环境影响较大，容易出现颜色深浅不均、组织结构粗糙、叶片较厚、弹性较差等情况，并且在工艺执行方面，需要依靠烟农通过感官对烟叶的晾制过程进行主观判断，烟叶的质量往往取决于烟农的晾制经验，缺少成熟的晾制技术和配套的晾制设施，智能化晾制设备研究更是处于空白阶段，一旦质量出现问题，不能利用晾制过程中的数据信息对晾制过程进行分析，使得晾制工艺改进受阻。

随着机器学习技术的快速发展，智能化逐步成为各个领域转型的方向，自动智能技术也在工业应用中展现出了优异的成绩。因此本发明利用机器学习的优势，针对CX-026烟叶品种，采集雪茄烟叶中茄衣部分在晾制房晾制过程中产生的各类数据，构建烟叶晾制工艺阶段预测模型，保障在晾制过程中对晾制工艺阶段的高精度识别，进而实现对晾制工艺的实时控制和调整，这将对缓解烟农工作负担、提高烟叶晾制效率、优化烟叶晾制过程、提升烟叶晾制质量和增加烟叶的经济效益产生巨大的促进作用。

理论上来说，烟叶晾制过程中采集到的数据主要为两类，分别是结构化数据和非结构化数据，主要包括：晾制房温度、晾制房湿度、烟叶失水量、烟叶图像等数据。常规的烟叶图像处理需关注烟叶的叶片颜色和面积的变化以及筋脉的变化，其中叶片颜色方面主要采集RGB(Red Green Blue)、HSV(Hue Saturation Value)两种颜色空间的颜色特征数据，叶片筋脉方面主要采集叶片纹理的各类特征数据。这意味着导入模型的数据特征繁多，并且随着晾制过程中提取的数据量的增加，噪声和数据异常出现的次数也随之增多，使得数据质量低劣。此外，现有对于烟叶晾制过程识别的相关研究都是使用一次性学习训练的算法，这些算法在数据噪声多的情况下表现一般，难以应用到实际生产中。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有的烟叶晾制过程中的烟叶图像处理方式导入模型的数据特征繁多，噪声和数据异常出现的次数也随之增多，使得数据质量低劣。

(2)现有对于烟叶晾制过程识别的相关研究都是使用一次性学习训练的算法，这些算法在数据噪声多的情况下表现一般，难以应用到实际生产中。

解决以上问题及缺陷的难度为：

目前由于数据和建模思路的问题，一次性学习训练的算法在数据冗杂的晾制数据集中表现一般，模型的性能受到限制。

解决以上问题及缺陷的意义为：

利用算法对晾晒房中提取的初始数据集进行预处理，降低大量噪声给模型学习所带来的严重的影响，提高模型的训练效率，减少模型的训练成本。处理后的特征数据有助于提升模型判断的准确度，在实际生产过程中缓解烟农工作负担、提高烟叶晾晒效率。此外，随着模型融合技术的发展，采用多阶段的模型训练模式能够有效优化模型训练过程，提高模型的预测性能。

发明内容

针对现有技术存在的问题，本发明提供了一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法。

本发明是这样实现的，一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法包括：

步骤一，按照固定的时间周期，每隔60分钟从晾制房中采集雪茄烟叶中茄衣部分的晾制图像，同时采集晾制房中干湿球温度数据、失水量传感器数据，利用传输设备上传至云平台数据库，得到模型训练的原始数据集；对采集到的图像进行预处理，提高图像质量；

步骤二，对步骤一处理后的图像进行RGB、HSV和纹理特征值提取操作，将烟叶图像转化为结构化数据，再与干湿球温度数据、失水量传感器数据构成特征集合；

步骤三，对步骤二处理后中的特征集合利用随机森林算法进行缺失值、异常值的预处理后，对图像中烟叶所处工艺阶段进行数字编码，将数字编码存入数据库中；

步骤四，利用Embedded嵌入算法对步骤三处理后的数据集进行特征选择，得到特征集合，并对所有数据进行标准化操作，将数据无量纲化，形成初始数据集；

步骤五，将初始数据集中单个晾制批次的数据集合划分为多个流式数据集，并将其对应的晾制工艺阶段编码作为训练标签，按照增量训练的模式，使用SGD逻辑分类算法，对单个晾制批次特征数据进行建模，训练后得到第一层基分类器；

步骤六，以晾制批次为单位，继续使用SGD逻辑分类模型作为第二层的元分类器，构建循环依次向模型输入初始数据集中整个晾制批次的特征数据，经过增量训练后，得到训练好的SGD逻辑分类模型；

步骤七，将晾制房中实时采集到结构数据和非结构化数据，经过步骤一至步骤四处理后，输入到训练好的SGD逻辑分类模型，得到识别结果，同时模型利用数据增量再次学习，不断提高识别准确率。

进一步，所述步骤一中对采集到的图像进行预处理时，采用中值滤波非线性平滑算法和暗通道去雾算法。

进一步，所述步骤二中的特征集合包括采集步骤一处理后的烟叶图像中的R、G、H、纹理对比度、纹理同质性特征值，与干湿球温度数据、失水量传感器数据一起构成特征集合。

进一步，步骤三中的对图像中烟叶所处工艺阶段进行数字编码中，将烟叶晾制过程分为四个工艺阶段，包括凋萎期、变黄期、变褐期、干筋期，对处理后的目标图像进行工艺阶段标注，分别对应数字0～3，存入数据库中。

进一步，步骤三中进行缺失值预处理时，遍历所有数据特征，从缺失最少的特征开始，使用随机森林算法进行填补，在填补一个特征时，先将其他特征的缺失值用0代替，每完成一次回归预测，就将预测值放到原本的特征矩阵中，再继续填补下一个特征。

进一步，所述步骤四中数据集进行特征选择时，利用Embedded嵌入法，先利用随机森林算法对特征集合进行训练，得到各个特征的权值系数，再根据权值系数从大到小选择特征。

进一步，所述步骤五中的第一层基分类器的训练操作为：

以单个晾制批次为单位，划分初始数据集，可得到N个批次的晾制数据集，并将每个晾制批次中的数据以50为单位，划分得到流式数据集a1、a2……am共m个，以其对应的晾制工艺阶段编码作为训练标签；

使用SGD逻辑分类算法，按照增量训练的模式，依次导入流式数据集a1、a2……am，对SGD逻辑分类模型进行训练。根据网格搜索方法自动调节SGD逻辑分类模型参数，根据学习曲线确定，模型的正则化方式为L2，正则化强度为1，最大迭代次数为100，分类类型为multinomial，最优化方法为saga，CPU线程数为-1。

进一步，所述步骤六中的第二层基分类器的训练操作为：

将N个晾制批次的特征集合按照8：2的比例分成训练集数据和测试集数据；

以晾制批次为单位，继续使用SGD逻辑分类模型作为第二层的元分类器，构建循环依次向模型输入初始数据集中整个晾制批次的特征数据，经过增量训练后，得到训练好的SGD逻辑分类模型，根据学习曲线确定，确定正则化方式为L2，正则化强度为1，最大迭代次数为80，分类类型为multinomial，最优化方法为saga，CPU线程数为-1，完成增量学习模型的训练。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

1、在数据处理方面，针对烟叶数据缺失值多的特点，使用随机森林算法对烟叶数据的缺失值进行预测，为烟叶数据特征填补大量有效信息，提高了后续模型预测准确度；并利用Embedded嵌入法，精确到模型效用本身，求取各个特征的权值系数，删除无关特征和无区分度特征，解决晾制数据中大量噪声的问题，提升了模型训练效率；

2、在模型训练方面，基于增量学习的融合模型先将单个晾制批次划分为多个流式数据集，采用增量训练的模式对SGD逻辑分类模型进行训练，再使用模型融合技术，以每个晾制批次为训练单位，继续使用SGD逻辑分类模型进行增量学习，对烟叶晾制工艺阶段进行识别，从而实现实时、快速判断晾制工艺阶段，同时模型利用后续数据增量再次学习，不断提高识别准确率，以此改进烟叶晾制工艺，优化烟叶晾制的流程，缓解烟农的工作压力，实现远程、智能、精准晾制。

本发明提出了基于SGD逻辑分类算法，采用增量学习的模式对烟叶晾制工艺阶段进行识别的融合模型，该模型可结合晾制房采集的晾制数据特点对数据进行预处理和特征选择，通过增量训练的学习模式，逐步提高判断晾制工艺阶段的准确度，优化烟叶晾制的流程，缓解烟农的工作压力，提高烟叶的经济效益。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法的流程图。

图2是本发明实施例提供的缺失值填补与回归预测次数的关系图。

图3是本发明实施例提供的缺失值处理方法效果的对比图。

图4是本发明实施例提供的特征选择模型参数的学习曲线图。

图5是本发明实施例提供的增量学习模型训练流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法包括：

S101，按照固定的时间周期，每隔60分钟从晾制房中采集雪茄烟叶中茄衣部分的晾制图像，同时采集晾制房中干湿球温度数据、失水量传感器数据，利用传输设备上传至云平台数据库，得到模型训练的原始数据集；对采集到的图像进行预处理，提高图像质量；

S102，对步骤一处理后的图像进行RGB、HSV和纹理特征值提取操作，将烟叶图像转化为结构化数据，再与干湿球温度数据、失水量传感器数据构成特征集合；

S103，对步骤二处理后中的特征集合利用随机森林算法进行缺失值、异常值的预处理后，对图像中烟叶所处工艺阶段进行数字编码，将数字编码存入数据库中；

S104，利用Embedded嵌入算法对步骤三处理后的数据集进行特征选择，得到特征集合，并对所有数据进行标准化操作，将数据无量纲化，形成初始数据集；

S105，将初始数据集中单个晾制批次的数据集合划分为多个流式数据集，并将其对应的晾制工艺阶段编码作为训练标签，按照增量训练的模式，使用SGD逻辑分类算法，对单个晾制批次特征数据进行建模，训练后得到第一层基分类器；

S106，以晾制批次为单位，继续使用SGD逻辑分类模型作为第二层的元分类器，构建循环依次向模型输入初始数据集中整个晾制批次的特征数据，经过增量训练后，得到训练好的SGD逻辑分类模型；

S107，将晾制房中实时采集到结构数据和非结构化数据，经过步骤一至步骤四处理后，输入到训练好的SGD逻辑分类模型，得到识别结果，同时模型利用数据增量再次学习，不断提高识别准确率。

下面结合实施例对本发明进一步进行描述。

S1、以60分钟为采集周期从晾制房中布置的各类传感器采集结构化数据，再同摄像头拍摄的烟叶图像结合构成原始的数据集合，由于原始数据集合中包含结构化数据和非结构化数据，因此对该数据集合进行预处理操作：

针对数据集合进行预处理操作步骤如下：

S11、利用中值滤波非线性平滑算法，对烟叶晾制图像进行噪声去除处理。对于图片中的任意一个像素点，计算该像素点附近以3为边长的正方形范围内所有像素点的灰度值中值，并将该值确定为待处理像素点的像素值。

S12、烟叶晾制过程中，晾制房温差较大，导致采集到的烟叶图片存在画面雾化的问题，采用暗通道去雾算法，确定最小值滤波半径r为5，消除雾化现象，修正烟叶晾制图像色彩。

S13、转化烟叶图像为结构化数据。烟叶在晾制过程中，颜色将由绿色过渡为黄褐色，基于三原色的原理，选择烟叶图片中的固定区域，采集区域中R(红)、G(绿)、B(蓝)三种颜色分量的数值，再进行归一化操作后，作为RGB颜色特征数据。

S14、基于RGB-HSV公式，将烟叶图像从RGB颜色空间转化为HSV颜色空间中，采集图片的H(色调)、S(饱和度)、V(明度)分量值，作为HSV颜色特征数据。

S15、在晾制过程中，烟叶经变筋后主脉变黄且叶片发卷，待叶片全部干燥之后，叶片完全卷曲，因此使用灰度共生矩阵计算晾制过程中烟叶的纹理数据，主要包括烟叶的纹理能量(Energy)、纹理熵(Entropy)、纹理对比度(Contrast)和纹理同质性(Homogeneity)，作为纹理特征数据。

S2、获取步骤S1中的特征数据集合，按照时间顺序同晾制房中采集到的结构化数据合并，得到一个包含R颜色分量、G颜色分量、B颜色分量、H颜色分量、S颜色分量、V颜色分量、纹理对比度、纹理同质性、纹理能量、纹理熵、干湿球温度和失水量传感器数据的晾制特征数据集合，并储存至数据库。

S3、获取步骤S24中特征集合中的数据，进行数据预处理操作，提高数据的质量。具体方法为：

S31、缺失值处理。从晾制房中采集到的初始数据集存在大量缺失特征值，利用晾制数据特征矩阵和编码标签之间的关系，将标签和特征矩阵相互转换，使用随机森林算法填补特征矩阵中的缺失值，对初始数据集中存在缺失值的特征进行遍历。从缺失最少的特征开始填补，每次填补特征时，先将其他特征的缺失值用0代替，每完成一次回归预测，就将随机森林模型的预测值填补到原本的特征矩阵中，再依次对下一个特征进行填补。每完成一次填补，有缺失值的特征便减少一个，即每次循环后，需要用0来填补的特征就越来越少，当进行到最后一个特征时，已经没有任何的其他特征需要用0来进行填补，如图1所示，本实施例的数据缺失值处理中含有缺失值的特征数量随回归预测的次数而单调下降。利用随机森林回归预测缺失值的方法可明显降低数据集合的均方误差，如图2所示，相比于均值填补缺失值和特殊值填补缺失值的方法，随机森林回归填补缺失值的方法能够有效弥补数据缺失信息，提高模型训练准确率。

S32、异常值处理。获取步骤S31处理后的数据，使用Min-Max Scaling方法归一化数据使数据服从正态分布，再根据3σ法则捕捉数据异常值，结合前后数据的函数关系修正异常值。

S33、数据特征选择。

利用Embedded嵌入法，先使用随机森林算法对特征集合进行训练，得到各个特征的权值系数，这些权值系数代表数据特征对模型训练的贡献性和重要性。由于随机森林是使用惩罚项的模型，随着正则化惩罚的加大，构建模型中数据特征对应的权值系数随之减小，不断提高正则化惩罚项，一部分特征的权值系数值将更容易减小至0，即这些特征对模型训练没有贡献性，删除此类特征，保留权值系数大的特征。再基于贡献的评估，根据权值系数从大到小选择特征，去除无关特征和无区分度特征，高效地提高模型训练效力。

基于随机森林模型中feature_importance接口，使用学习曲线寻找最优的特征重要性阈值，筛选出晾制数据的最佳特征值。如图3所示，在本实施例的数据特征选择中，随着参数阈值的不断增大，模型的效果总体呈现出先逐渐提高，再缓慢下降的变化趋势，剔除的特征越来越多，数据信息的损失也随之变大，但在0.1029左右，模型可以达到接近0.98的效果，因此选择这个范围中的数值作为参数阈值传入数据特征选择模型。

S34、数据标准化。将步骤S33处理后的数据利用Z-Score标准化方法标准化数据，使数据服从标准正态分布。

S35、编码烟叶晾制工艺阶段。将本实施例中的烟叶晾制过程分为四个工艺阶段：凋萎、变黄、变褐和干筋。对步骤S11和S12处理后的目标图像进行四个工艺阶段标注，分别对应数字0-3，依据图片和数据的对应关系保存至步骤S33处理后的烟叶晾制信息数据库中。

S4、将初始数据集中单个晾制批次的数据集合划分为多个流式数据集，并将其对应的晾制工艺阶段编码作为训练标签，按照增量训练的模式，使用SGD逻辑分类算法，对单个晾制批次特征数据进行建模，训练后得到第一层基分类器。第一层模型的训练操作如下：

以单个晾制批次为单位，划分初始数据集，可得到N个批次的晾制数据集，并将每个晾制批次中的数据以50为单位，划分得到流式数据集a₁、a₂……a_m共m个，以其对应的晾制工艺阶段编码作为训练标签；

使用SGD逻辑分类算法，按照增量训练的模式，依次导入流式数据集a₁、a₂……a_m，对SGD逻辑分类模型进行训练。根据学习曲线，确定模型的正则化方式为L2，正则化强度为1，最大迭代次数为100，分类类型为multinomial，最优化方法为saga，CPU线程数为-1；

S5、以晾制批次为单位，继续使用SGD逻辑分类模型作为第二层的元分类器，构建循环依次向模型输入初始数据集中整个晾制批次的特征数据，经过增量训练后得到训练好的SGD逻辑分类模型。第二层模型的训练操作如下：

将N个晾制批次的特征集合按照8：2的比例分成训练集数据和测试集数据。

基于SGD逻辑分类模型中predict_fit接口，按照依次输入单个晾制批次数据的模式，对模型进行增量训练，根据学习曲线，确定正则化方式为L2，正则化强度为1，最大迭代次数为80，分类类型为multinomial，最优化方法为saga，CPU线程数为-1。

S6、将晾制房中实时采集到结构数据和非结构化数据，经过处理步骤S1、步骤S2和步骤S3处理输入到训练好的增量学习模型，得到识别结果，同时模型利用数据增量再次学习，以此提高判断晾制工艺阶段的准确度，优化烟叶晾制的流程，缓解烟农的工作压力，提高烟叶的经济效益。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法，其特征在于，所述基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法包括：

2.如权利要求1所述的基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法，其特征在于，所述步骤一中对采集到的图像进行预处理时，采用中值滤波非线性平滑算法和暗通道去雾算法。

3.如权利要求1所述的基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法，其特征在于，所述步骤二中的特征集合包括采集步骤一处理后的烟叶图像中的R、G、H、纹理对比度、纹理同质性特征值，与干湿球温度数据、失水量传感器数据一起构成特征集合。

4.如权利要求1所述的基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法，其特征在于，步骤三中的对图像中烟叶所处工艺阶段进行数字编码中，将烟叶晾制过程分为四个工艺阶段，包括凋萎期、变黄期、变褐期、干筋期，对处理后的目标图像进行工艺阶段标注，分别对应数字0～3，存入数据库中。

5.如权利要求1所述的基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法，其特征在于，步骤三中进行缺失值预处理时，遍历所有数据特征，从缺失最少的特征开始，使用随机森林算法进行填补，在填补一个特征时，先将其他特征的缺失值用0代替，每完成一次回归预测，就将预测值放到原本的特征矩阵中，再继续填补下一个特征。

6.如权利要求1所述的基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法，其特征在于，所述步骤四中数据集进行特征选择时，利用Embedded嵌入法，先利用随机森林算法对特征集合进行训练，得到各个特征的权值系数，再根据权值系数从大到小选择特征。

7.如权利要求1所述的基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法，其特征在于，所述步骤五中的第一层基分类器的训练操作为：

8.如权利要求1所述的基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法，其特征在于，所述步骤六中的第二层基分类器的训练操作为：

9.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施如权利要求1～7任意一项所述的基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法。

10.一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1～7任意一项所述的基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法。