CN117909886A

CN117909886A - 一种基于优化随机森林模型的锯齿棉品级分类方法及系统

Info

Publication number: CN117909886A
Application number: CN202410304010.8A
Authority: CN
Inventors: 董绍伟; 徐静; 丁友超; 周宇航; 王铭; 董俊哲; 兰丽丽
Original assignee: Nanjing Customs Industrial Product Testing Center; Yangzhou Polytechnic Institute
Current assignee: Nanjing Customs Industrial Product Testing Center; Yangzhou Polytechnic Institute
Priority date: 2024-03-18
Filing date: 2024-03-18
Publication date: 2024-04-19
Anticipated expiration: 2044-03-18
Also published as: CN117909886B

Abstract

本发明涉及棉花品级分类技术领域，公开了一种基于优化随机森林模型的锯齿棉品级分类方法及系统，包括：对锯齿棉样品进行粗分类，获得所述优品锯齿棉的分类参数和所述差品锯齿棉的分类参数；建立随机森林模型，确定所述随机森林模型的优化参数，根据所述优化参数对所述随机森林模型进行优化，获得优化好的随机森林模型；优化好的随机森林模型包括第一随机森林模型和第二随机森林模型，所述第一随机森林模型用于对所述优品锯齿棉的品级进行分类，所述第二随机森林模型用于对所述差品锯齿棉的品级进行分类，优化后的第一随机森林模型和第二随机森林模型分别输出优品锯齿棉和差品锯齿棉的分类结果，使得模型的整体精度和效率两方面达到平衡。

Description

一种基于优化随机森林模型的锯齿棉品级分类方法及系统

技术领域

本发明涉及棉花品级分类技术领域，尤其涉及一种基于优化随机森林模型的锯齿棉品级分类方法及系统。

背景技术

品级是棉花最重要的质量指标之一，起初棉花品级的检测仍采用传统检测方法，通过分级员根据棉花质量的差异进行感官判定对棉花进行分类，观察结果会出现因主观性而引起观察偏移，随后通过棉花大容量纤维检测仪（HVI）可获得反射率、黄度、杂质含量、长度、马克隆值等10余种指标，检测仪仅能测量出棉花的上述指标数据，为了达到棉花等级的自动分级，仍需要借助光电测量仪或激光扫描仪等设备将数字数据转换为图像数据才能用于后续的分析得到品级的分类，现有棉花品级自动分类方法大都基于较强的图像处理技术，对采集的棉花样品图像质量要求过高，应用受到很多限制，现有技术中的随机森林模型可以用于分类，通过调整超参数提高模型性能，输入棉花数据可以直接输出棉花品级结果，但是棉花数据比较庞大且具有不规律性，需要在大范围内选取超参数组合用于模型优化，虽然能够达到精度要求但是搜索速度会大大减慢，使得优化后的随机森林模型的效率降低，若在较小范围内选取超参数组合，可以提高随机森林模型的输出效率，但是优化后的随机森林模型在精度方面达不到要求，进而导致随机森林模型输出的分类结果缺乏一定准确度，降低了分类精度，基于上述理由，用于棉花分类的随机森林模型无法在整体精度和效率两方面达到平衡，为此本发明提出一种基于优化随机森林模型的锯齿棉品级分类方法及系统，解决上述技术问题。

发明内容

为了解决上述技术问题，本发明提供了一种基于优化随机森林模型的锯齿棉品级分类方法及系统，以实现对优品锯齿棉和差品锯齿棉进行品级分类。

本发明提供了一种基于优化随机森林模型的锯齿棉品级分类方法，包括：

步骤S1，对锯齿棉样品进行粗分类取得优品锯齿棉和差品锯齿棉，获得优品锯齿棉样品数据和差品锯齿棉样品数据；

步骤S2，对所述优品锯齿棉样品数据和所述差品锯齿棉样品数据进行标准化处理并分别计算所述优品锯齿棉样品数据的方差和所述差品锯齿棉样品数据的方差，根据所述优品锯齿棉样品数据的方差和所述差品锯齿棉样品数据的方差获得所述优品锯齿棉的分类参数和所述差品锯齿棉的分类参数；

步骤S3，建立随机森林模型；

步骤S4，确定所述随机森林模型的优化参数，所述优化参数包括超参数以及所述超参数的搜索空间；

步骤S5，根据所述优化参数对所述步骤S3中所述随机森林模型进行优化，获得优化好的随机森林模型；

所述步骤S5中获得优化好的随机森林模型包括第一随机森林模型和第二随机森林模型，所述第一随机森林模型用于对所述优品锯齿棉的品级进行分类，所述第二随机森林模型用于对所述差品锯齿棉的品级进行分类；

步骤S6，将所述优品锯齿棉的分类参数和所述差品锯齿棉的分类参数输入到所述步骤S5中获得的优化好的随机森林模型中，输出锯齿棉品级分类结果。

进一步地，所述超参数包括子模型数、最大树深度、分裂所需最小样本数、最大叶节点数、最大特征数、叶节点最小样本数。

进一步地，第一随机森林模型的所述优化参数中的所述超参数的搜索空间为：所述子模型数的搜索空间为[70，150]，所述最大树深度的搜索空间为[10，20]，所述分裂所需最小样本数的搜索空间为[20，35]，所述最大叶节点数的搜索空间为[15，40]，所述最大特征数的搜索空间为[0.1，0.9]，所述叶节点最小样本数的搜索空间为[10，250]。

进一步地，第二随机森林模型的所述优化参数中的所述超参数的搜索空间为：所述子模型数的搜索空间为[50，300]，所述最大树深度的搜索空间为[5，30]，所述分裂所需最小样本数的搜索空间为[1，50]，所述最大叶节点数的搜索空间为[5，60]，所述最大特征数的搜索空间为[0.1，0.99]，所述叶节点最小样本数的搜索空间为[2，30]。

进一步地，所述步骤S5中根据所述优化参数对所述随机森林模型进行优化，获得优化好的随机森林模型是指：基于贝叶斯算法对所述随机森林模型中的所述超参数进行优化处理，获得最优超参数，根据所述最优超参数优化所述随机森林模型，得到所述优化好的随机森林模型。

进一步地，基于贝叶斯算法对所述随机森林模型中的所述超参数进行优化处理，获得最优超参数，根据所述最优超参数优化所述随机森林模型，得到所述优化好的随机森林模型，具体包括以下步骤：

步骤S51，建立贝叶斯优化的目标函数；

步骤S52，设置贝叶斯优化的最大循环次数；

步骤S53，在所述随机森林模型的所述超参数的搜索空间内选择超参数组合；

步骤S54，基于所述超参数组合，利用分类参数训练所述随机森林模型获得目标函数值，所述超参数组合与所述目标函数值构成已知点数据集；

步骤S55，对所述已知点数据集进行高斯过程拟合，获得高斯分布函数，根据高斯分布函数计算目标函数在任意待测试点的后验概率分布；

步骤S56，根据所述后验概率分布构造采集函数；

步骤S57，取所述采集函数最大值作为新的所述超参数组合，循环执行步骤S55-S56，不断更新所述超参数组合，直到循环次数大于最大循环次数，获得最优超参数，将所述最优超参数输入至所述步骤S3中建立的随机森林模型，获得最优的随机森林模型。

进一步地，所述步骤S51中建立贝叶斯优化的目标函数为

；

式中：为贝叶斯优化的目标函数，/>表示随机森林模型在第i次十折交叉验证时测试集的第j个数据，/>表示第i次十折交叉验证的预测值的第j个数据，n表示所有锯齿棉样品数据中测试集的样本数量， N=10，代表随机森林模型在十折交叉验证时重复验证的次数。

进一步地，所述步骤S55中对所述已知点数据集进行高斯过程拟合，获得高斯分布函数，根据高斯分布函数计算目标函数在任意待测试点的后验概率分布，具体包括以下步骤：

步骤S551，为高斯过程回归模型建立核函数；

步骤S552，根据所述核函数计算所述已知点数据集的协方差矩阵；

步骤S553，通过所述协方差矩阵构建所述目标函数的高斯分布；

步骤S554，根据所述高斯分布获得高斯分布函数；

步骤S555，获取新的数据点作为待测试点；

步骤S556，根据所述高斯分布函数，获得所述待测试点和所述已知数据集的联合高斯分布；

步骤S557，根据所述联合高斯分布计算在待测试点的后验概率分布。

进一步地，所述步骤S56中根据所述后验概率分布构造采集函数，具体包括以下步骤：

步骤S561，根据联合高斯分布计算在待测试点的后验概率分布建立概率密度函数；

步骤S562，根据所述概率密度函数建立采集函数。

本发明还提供一种基于优化随机森林模型的锯齿棉品级分类系统，用于执行上述所述的一种基于优化随机森林模型的锯齿棉品级分类方法，包括以下模块：

锯齿棉品级粗分类模块，用于对锯齿棉样品进行粗分类获得优品锯齿棉样品数据和差品锯齿棉样品数据；

样品数据采集与分析模块，用于获取锯齿棉样品中优品锯齿棉的样品数据和差品锯齿棉的样品数据，对所述优品锯齿棉的样品数据和所述差品锯齿棉的样品数据进行标准化处理并分别计算所述优品锯齿棉样品数据和所述差品锯齿棉样品数据的方差，根据所述优品锯齿棉样品数据和所述差品锯齿棉样品数据的方差值获得所述优品锯齿棉的分类参数和所述差品锯齿棉的分类参数；

第一随机森林模型：用于根据所述优品锯齿棉的分类参数对所述优品锯齿棉的品级进行分类；

第二随机森林模型：用于根据所述差品锯齿棉的样品数据对所述差品锯齿棉的品级进行分类；

分类结果输出模块，用于将锯齿棉样品的品级分类结果输出。

本发明实施例具有以下技术效果：

1、本发明首先对锯齿棉样品粗分类为优品锯齿棉和差品锯齿棉并确定其对应的分类参数，分别建立第一随机森林模型和第二随机森林模型对优品锯齿棉和差品锯齿棉进一步分类，同时为第一随机森林模型和第二随机森林模型设置不同的优化参数用于模型优化，优化后的第一随机森林模型和第二随机森林模型分别输出优品锯齿棉和差品锯齿棉的分类结果，使得模型的整体精度和效率两方面达到平衡。

2、本发明中的优品锯齿棉样本数据比较简单，将第一随机森林模型超参数的搜索空间的取值设置为小范围，可选取的超参数较少，提高了模型的输出效率，差品锯齿棉样本数据比较复杂，将第二随机森林模型超参数的搜索空间的取值设置为大范围，可选取的超参数较多，提高了超参数选取的精度，进一步地提高了模型输出的精度，提高了分类结果的准确度。

3、本发明对随机森模型的超参数进行优化得到最优超参数，将最优超参数输入随机森林模型中获得最优的随机森林模型，将锯齿棉的分类参数输入最优的随机森林模型中可以准确获得棉花品级的分类结果。

4、本发明通过建立目标函数，随后高斯过程拟合得到后验概率分布并构造采集函数以获得最优超参数，通过调整最优超参数进一步优化模型的性能，提高模型的分类准确度，后验概率分布和采集函数可以找到最优的超参数组合，使得模型在训练和测试数据上均可以表现良好，同时模型的鲁棒性与泛化性能也随之增强。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例1提供的一种基于优化随机森林模型的锯齿棉品级分类方法的流程图；

图2是本发明实施例2提供的一种基于优化随机森林模型的锯齿棉品级分类系统的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

实施例1

图1是本发明实施例1提供的一种基于优化随机森林模型的锯齿棉品级分类方法的流程图。参照图1，具体包括以下步骤：

本实施例选取黄度、颜色级、杂质、纤维长度这四方面对锯齿棉样品进行粗分类，分级员依据上述测量指标根据锯齿棉样品质量的差异进行感官判定，将锯齿棉样品粗分类为优品锯齿棉和差品锯齿棉，从而根据分类得到的优品锯齿棉和差品锯齿棉获得优品锯齿棉样品数据和差品锯齿棉样品数据。

步骤S2，对所述优品锯齿棉样品数据和所述差品锯齿棉样品数据进行标准化处理并分别计算所述优品锯齿棉样品数据的方差和所述差品锯齿棉样品数据的方差，根据所述优品锯齿棉样品数据的方差和所述差品锯齿棉样品数据的方差获得所述优品锯齿棉的分类参数和所述差品锯齿棉的分类参数。

为避免过多变量影响后续的分类效果，对测量指标数据进行标准化处理，具体地，首先收集锯齿棉样品的多个测量指标数据，包括：纤维长度、长度整齐度指数、马克隆值、断裂比强度、断裂伸长率、短纤维指数、反射率、黄度、颜色级、杂质数量、杂质面积、杂质级别等12个测量指标数据，然后对上述测量指标数据进行标准化数据处理；

对于差品锯齿棉来讲，差品锯齿棉在黄度、颜色级、杂质、纤维长度具有明显的差异，本实施例对12个测量指标数据进行标准化处理后，计算每个测量指标数据的方差，由于短纤维指数的方差较大，说明差品锯齿棉在短纤维指数具有明显差异，在黄度、颜色级、杂质、纤维长度基础上加入短纤维指数，使得纤维长度、黄度、颜色级、杂质面积、杂质数量、杂质级别、短纤维指数这七个指标构成差品锯齿棉的分类参数，代替原来的12个测量指标，短纤维指数是用于评估棉花纤维长度分布的一个指标，通常用于表示短于一定长度的纤维所占的比例，短纤维指数较高的棉花通常被认为是质量较差的棉花，因为短纤维会导致纺织品的品质和使用性能下降，加入短纤维指数用于差品锯齿棉进行分类可以提高分类的准确性，增加了分类精度；

对于优品锯齿棉来讲，优品锯齿棉在纤维长度、黄度、颜色级、杂质方面差异不明显，将方差较大的马克隆值、长度整齐度指数、断裂比强度、断裂伸长率、反射率这五个指标作为优品锯齿棉的分类参数。

步骤S3，建立随机森林模型。

所述随机森林模型根据优品锯齿棉和差品锯齿棉建立两个随机森林模型，具体包括第一随机森林模型和第二随机森林模型，所述第一随机森林模型用于根据优品锯齿棉的分类参数对优品锯齿棉进一步分类，所述第二随机森林模型用于根据差品锯齿棉的分类参数对差品锯齿棉进一步分类；

具体地，马克隆值、长度整齐度指数、断裂比强度、断裂伸长率、反射率作为优品锯齿棉的分类参数，获取的所述优品锯齿棉的分类参数用于输入至第一随机森林模型中，对优品锯齿棉作进一步分类，纤维长度、黄度、颜色级、杂质面积、杂质数量、杂质级别、短纤维指数作为差品锯齿棉的分类参数，获取的所述差品锯齿棉的分类参数用于输入第二随机森林模型中，对差品锯齿棉作进一步分类。

步骤S4，确定所述随机森林模型的优化参数；

确定所述步骤S3建立的所述随机森林模型的优化参数分别是指第一随机森林模型的优化参数以及第二随机森林模型的优化参数，其中，优化参数包括超参数以及所述超参数的搜索空间；所述第一随机森林模型和第二随机森林模型的优化参数中所述超参数均包括子模型数、最大树深度、分裂所需最小样本数、最大叶节点数、最大特征数、叶节点最小样本数；

由于本实施例的第一随机森林模型分类的优品锯齿棉分类参数比较简单，为此，本实施例在较小搜索空间内选择超参数对第一随机森林模型进行优化，具体地，本实施例为第一随机森林模型优化设置的超参数的搜索空间为：所述子模型数的搜索空间为[70，150]，所述最大树深度的搜索空间为[10，20]，所述分裂所需最小样本数的搜索空间为[20，35]，所述最大叶节点数的搜索空间为[15，40]，所述最大特征数的搜索空间为[0.1，0.9]，所述叶节点最小样本数的搜索空间为[10，250]；本实施例为第一随机森林模型设置较小的搜索空间，可选择的超参数较少，在分类时可以更快获取超参数组合，较快得到分类结果，提高分类效率；

由于本实施例的第二随机森林模型分类的差品锯齿棉样本数据比较复杂，差品锯齿棉在黄度、颜色、杂质、纤维长度具有明显的差异，而且纤维长度与黄度、颜色存在一定的相关性，同时杂质含量也与纤维长度和颜色级存在一定的相关性，各个测量指标数据存在相互影响和相互关联，为此，本实施例采用较大的搜索空间内选择超参数对第二随机森林模型进行优化，具体地，本实施例为第二随机森林模型优化设置的所述超参数的搜索空间为：所述子模型数的搜索空间为[50，300]，所述最大树深度的搜索空间为[5，30]，所述分裂所需最小样本数的搜索空间为[1，50]，所述最大叶节点数的搜索空间为[5，60]，所述最大特征数的搜索空间为[0.1，0.99]，所述叶节点最小样本数的搜索空间为[2，30]；本实施例为第二随机森林模型设置较大的搜索空间，可选取较多的超参数，在分类时可以选取多组超参数组合用于获取最优的第二随机森林模型以对差品锯齿棉样品分类，可以大大提高分类精度，由于超参数数量较多，搜索速度较慢导致最终的分类效率降低；

本实施例针对优品锯齿棉和差品锯齿棉选择不同的搜索空间以及采用不同的随机森林模型用于分类，第一随机森林模型在较小的搜索空间选取少量的超参数对优品锯齿棉进行分类，第二随机森模型在较大的搜索空间内选取大量的超参数对差品锯齿棉进行分类，可以使得模型在分类时整体精度和效率达到平衡。

步骤S5，根据所述优化参数对所述随机森林模型进行优化，获得优化好的随机森林模型。

基于贝叶斯算法对所述随机森林模型中的所述超参数进行优化处理，获得最优超参数，根据所述最优超参数优化所述随机森林模型，得到所述优化好的随机森林模型；

具体是指：基于贝叶斯算法对所述第一随机森林模型和第二随机森林模型的所述超参数进行优化处理，获得第一随机森林模型的最优超参数组合和第二随机森林模型的最优超参数，从而，得到优化后的第一随机森林模型和第二随机森林模型；进一步地，贝叶斯优化过程就是寻找一组最佳的超参数组合，使得目标函数取得最大值，最大得分的超参数组合即为模型的最优超参数；

基于贝叶斯算法对所述随机森林模型中的所述超参数进行优化处理，获得最优超参数，根据所述最优超参数优化所述随机森林模型，得到所述优化好的随机森林模型，具体包括以下步骤：

步骤S51，建立贝叶斯优化的目标函数；

本实施例采用随机森林模型作为锯齿棉样品品级分类的模型，随机森林模型的输入包含两部分：一部分是训练样本的输入，另一部分是建模特征的输入，获得的所述优品锯齿棉样品数据作为模型的自变量x_n，感官品级分类中的优品锯齿棉作为建模参数y_n，通过x_n和y_n构建用于分类的第一随机森林模型，获得的所述差品锯齿棉样品数据作为模型的自变量x_m，感官品级分类中的差品锯齿棉作为建模参数y_m，通过x_m和y_m构建用于分类的第二随机森林模型，抽取优品锯齿棉样品数据的80%作为第一随机森林模型的训练样本，剩下的20%作为第一随机森林模型的测试样本，抽取差品锯齿棉样品数据的80%作为第二随机森林模型的训练样本，剩下的20%作为第二随机森林模型的测试样本；训练样本用于模型训练以及超参数调优，测试样本用于模型超参数优化过程中性能评估，并将任意一组超参数组合通过十折交叉验证获得的负均方误差的均值作为贝叶斯优化的目标函数；

建立贝叶斯优化的目标函数为

；

式中：为贝叶斯优化的目标函数，/>为通过计算预测值和真实值之间的均方差的平均值，/>表示随机森林模型第i次十折交叉验证时测试集的第j个数据，/>表示第i次十折交叉验证时预测值的第j个数据的预测值，n表示所有锯齿棉样品数据中测试集的样本数量，N=10，代表随机森林模型在十折交叉验证时将数据集分为十份；

步骤S52，设置贝叶斯优化的最大循环次数；

本实施例基于贝叶斯算法优化的最大循环次数I设置为25-30次；

步骤S53，在所述随机森林模型的所述超参数的所述搜索空间内选择超参数组合；

对于第一随机森模型的超参数在第一随机森林模型的优化参数中的所述超参数的搜索空间内进行选取，对于第二随机森模型的超参数在第二随机森林模型的优化参数中的所述超参数的搜索空间内进行选取，超参数组合的选取方式通过人工选取；

人工为第一随机森林模型和第二随机森林模型随机选取M组不同的超参数组合X₁，X₂，...，X_M，基于每组超参数组合，利用获得的所述优品锯齿棉的分类参数训练所述第一随机森林模型，利用所述差品锯齿棉的分类参数训练所述第二随机森林模型，任意选取超参数组合分别输入至两个模型中，使得每个模型均输出M个目标函数值（Y₁，Y₂，...，Y_M），超参数组合与其对应的目标函数值构成已知点数据集；

由于目标函数是黑盒函数，计算成本较高，本实施例拟合了一个函数来代替目标函数，表示用高斯过程回归函数在数据集/>上做拟合，得到的/>是一个概率，即/>中的某一组超参数组合为/>时，的概率为/>；

对所述已知点数据集进行高斯过程拟合，获得高斯分布函数，具体包括以下步骤：

步骤S551，为高斯过程回归模型建立核函数；

所述核函数为：

；

式中，为核函数，/>为第i个和第j个超参数组合，/>、/>分别为核函数参数；

协方差矩阵为：；

目标函数值（Y₁，Y₂，...，Y_M）中所有Y_i（i=1,2，...，M）服从正态分布，即~N(m,K),其中m为均值函数，通常设为0；

步骤S554，根据所述高斯分布获得高斯分布函数；

对已知点数据集进行高斯过程拟合，得到高斯分布函数/>；

步骤S555，获取新的数据点作为待测试点；

本实施例将当前待测试点记为，所述步骤S554中的高斯分布函数用于代替目标函数，这样就可以计算目标函数在任意的待测试点/>的后验概率分布；

已知点数据集和当前待测试点/>的联合高斯分布满足：

；

式中，为已知的M个目标函数值/>的转置数据，即/>，/>为待测试点/>的目标函数值，/>为/>两两作用的协方差矩阵，/>为/>与两两作用的协方差矩阵，/>为K*的转置数据；K*，/>；

步骤S557，根据所述联合高斯分布计算在待测试点的后验概率分布；

的后验概率分布为：

；

其中，为待测试点/>的目标函数值，/>，K为协方差矩阵，

，

为/>的期望，/>为/>的方差；

步骤S56，根据所述后验概率分布构造采集函数；

具体包括以下步骤：

对于已知数据集，在第/>次评估时得到的/>为当前函数的最优值，对应的评估参数点记为/>，接下来进行新一轮评估，即第/>次评估，这次评估得到的最优函数值为：当/>时，最优函数值为/>，当/>时，最优函数值为/>，综上所述，定义提升函数为：

；

式中，为第M+1次评估对应的参数点，/>为前M次评估的最优值，/>为第M+1次评估的目标函数值；

计算任一点提升程度的期望值，再选择期望最高的点作为下一个评估点，

；

其中，为已知点数据集/>中任意点处提升函数/>的期望值；

根据待测试点的后验概率分布中得到的后验期望和方差，得到提升的概率密度函数为：

；

式中，为平衡参数，用于平衡开发和探索之间的关系，更进一步地，高斯过程拟合以后，得到了目标函数的后验概率分布，为了避免在局部最优解上不断采样，需要在开发（均值比较高的区域）和探索（置信区间比较宽的区域）之间的权衡；

其中，在随机森林模型优化过程中设置了大量超参数，这些超参数很大程度上决定了模型的学习策略，使得模型既可以能够有效学习现有数据，又能够在必要时探索位置数据或假设空间，为此本实施例通过不断为平衡参数赋值来平衡开发和探索之间的关系；均值比较高的区域与置信区间比较宽的区域：这是描述开发与探索的另一种方式，在均值比较高的区域，表示我们已经知道这个区域的表现相对较好；而在置信区间比较宽的区域，表示我们对这个区域的了解还不够深入，可能需要更多的探索和数据来确认其表现；

步骤S562，根据所述概率密度函数建立采集函数；

对所述概率密度函数的在/>上积分，得到采集函数EI/>：

；

其中为当前已测试点的最大函数值，/>为数学期望，/>为均方差；

步骤S57，取所述采集函数最大值作为新的所述超参数组合，循环执行步骤S55-S56，不断更新所述超参数组合，直到循环次数大于最大循环次数，获得最优超参数，将所述最优超参数输入至所述步骤S3中建立的随机森林模型，获得最优的随机森林模型；

选择采集函数值最高的点作为下一个测试的超参数组合，即：

；

其中，为输入空间，/>，表示M组超参数的集合，/>为已知点数据集/>中任意点的采集函数的数值；

将带入训练好的随机森林模型中，计算对应的目标函数值/>，将添加至已知点数据集/>，构成新的已知点数据集；重复执行步骤S55-S56直到达到最大循环次数I，即可获得最优超参数组合以及对应的目标函数值，将获得的最优超参数组合分别输入至第一随机森林模型和第二随机森林模型中，得到本实施例最优的第一随机森林模型和最优的第二随机森林模型。

步骤S6，将所述优品锯齿棉的分类参数和所述差品锯齿棉的分类参数输入到所述步骤S5中获得优化好的随机森林模型中，输出锯齿棉品级分类结果；

将差品锯齿棉的分类参数输入到最优的第一随机森林模型中，将优品锯齿棉的分类参数输入到最优的第二随机森林模型中，第一随机森林模型输出差品锯齿棉的分类结果，第二随机森林模型输出优品锯齿棉的分类结果。

现有技术中采用手动调参、网格搜索、随即搜索选取最优超参数，计算成本高、得到的超参数性能较差，每一次新的测试都独立于之前的训练，而本发明之前的训练结果可以在后面发挥作用，从而达到滚雪球的作用，贝叶斯优化通过少量的计算，基于较少的已知数据得到一个最优的超参数。

值得注意的是，本实施例中的第一随机森林模型和第二随机森林模型的超参数是相同，分类参数和超参数的搜索空间是不同的，更进一步地，两个模型的搜索空间的空间大小是不相同的，两个模型可选的超参数也是不同的；根据所述优化参数对所述随机森林模型进行优化，获得优化好的随机森林模型，整个过程的步骤S51-步骤S57的执行逻辑与执行顺序是相同的，针对于两个不同的第一随机森林模型和第二个随机森林模型仍采用步骤S51-步骤S57的执行逻辑与执行顺序来执行，第一随机森林模型和第二个随机森林模型进行优化出来过程中所使用的数据是不同，本实施例仅针对第一随机森林模型和第二个随机森林模型任一模型的优化过程进行描述。

实施例2

图2是本发明实施例2提供的一种基于优化随机森林模型的锯齿棉品级分类系统的结构图。参照图2，本发明还提供一种基于优化随机森林模型的锯齿棉品级分类系统，用于执行如上述所述的一种基于优化随机森林模型的锯齿棉品级分类方法，包括以下模块：

样本数据采集与分析模块，用于获取锯齿棉样品中优品和差品的样品数据，对所述样本数据进行标准化处理并分别计算所述优品锯齿棉样品数据和所述差品锯齿棉样品数据的方差，根据所述优品锯齿棉样品数据和所述差品锯齿棉样品数据的方差值获得锯齿棉样品中优品和差品的分类参数；

第一随机森林模型：用于根据所述锯齿棉品级分类参数对锯齿棉优品的品级进行分类；

第二随机森林模型：用于根据所述锯齿棉品级分类参数对锯齿棉差品的品级进行分类；

实施例3

本发明还提供了一种电子设备，包括一个或多个处理器和存储器。

处理器可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现上文所说明的本申请任意实施例的一种基于优化随机森林模型的锯齿棉品级分类方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如初始外参、阈值等各种内容。

在一个示例中，电子设备还可以包括：输入装置和输出装置，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。该输入装置可以包括例如键盘、鼠标等等。该输出装置可以向外部输出各种信息，包括预警提示信息、制动力度等。该输出装置可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本申请任意实施例所提供的一种基于优化随机森林模型的锯齿棉品级分类方法的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本申请任意实施例所提供的一种基于优化随机森林模型的锯齿棉品级分类方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，本发明所用术语仅为了描述特定实施例，而非限制本申请范围。如本发明说明书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

还需说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”等应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案。

Claims

1.一种基于优化随机森林模型的锯齿棉品级分类方法，其特征在于，包括：

步骤S3，建立随机森林模型；

步骤S4，确定所述随机森林模型的优化参数，优化参数包括超参数以及所述超参数的搜索空间；

步骤S5，根据所述优化参数对所述随机森林模型进行优化，获得优化好的随机森林模型；

步骤S6，将所述优品锯齿棉的分类参数和所述差品锯齿棉的分类参数输入到所述步骤S5中优化好的随机森林模型中，输出锯齿棉品级分类结果。

2.根据权利要求1所述的一种基于优化随机森林模型的锯齿棉品级分类方法，其特征在于，所述超参数包括子模型数、最大树深度、分裂所需最小样本数、最大叶节点数、最大特征数、叶节点最小样本数。

3.根据权利要求2所述的一种基于优化随机森林模型的锯齿棉品级分类方法，其特征在于，第一随机森林模型的所述优化参数中的所述超参数的搜索空间为：所述子模型数的搜索空间为[70，150]，所述最大树深度的搜索空间为[10，20]，所述分裂所需最小样本数的搜索空间为[20，35]，所述最大叶节点数的搜索空间为[15，40]，所述最大特征数的搜索空间为[0.1，0.9]，所述叶节点最小样本数的搜索空间为[10，250]。

4.根据权利要求2所述的一种基于优化随机森林模型的锯齿棉品级分类方法，其特征在于，第二随机森林模型的所述优化参数中的所述超参数的搜索空间为：所述子模型数的搜索空间为[50，300]，所述最大树深度的搜索空间为[5，30]，所述分裂所需最小样本数的搜索空间为[1，50]，所述最大叶节点数的搜索空间为[5，60]，所述最大特征数的搜索空间为[0.1，0.99]，所述叶节点最小样本数的搜索空间为[2，30]。

5.根据权利要求1所述的一种基于优化随机森林模型的锯齿棉品级分类方法，其特征在于，所述步骤S5中根据所述优化参数对所述随机森林模型进行优化，获得优化好的随机森林模型是指：基于贝叶斯算法对所述随机森林模型中的所述超参数进行优化处理，获得最优超参数，根据所述最优超参数优化所述随机森林模型，得到所述优化好的随机森林模型。

6.根据权利要求5所述的一种基于优化随机森林模型的锯齿棉品级分类方法，其特征在于，基于贝叶斯算法对所述随机森林模型中的所述超参数进行优化处理，获得最优超参数，根据所述最优超参数优化所述随机森林模型，得到所述优化好的随机森林模型，具体包括以下步骤：

步骤S51，建立贝叶斯优化的目标函数；

步骤S52，设置贝叶斯优化的最大循环次数；

步骤S56，根据所述后验概率分布构造采集函数；

7.根据权利要求6所述的一种基于优化随机森林模型的锯齿棉品级分类方法，其特征在于，所述步骤S51中建立贝叶斯优化的目标函数为

；

式中：为贝叶斯优化的目标函数，/>表示随机森林模型在第i次十折交叉验证时测试集的第j个数据，/>表示随机森林模型在第i次十折交叉验证的预测值的第j个数据，n表示所有锯齿棉样品数据中测试集的样本数量，N=10，代表随机森林模型在十折交叉验证时重复验证的次数。

8.根据权利要求6所述的一种基于优化随机森林模型的锯齿棉品级分类方法，其特征在于，所述步骤S55中对所述已知点数据集进行高斯过程拟合，获得高斯分布函数，根据高斯分布函数计算目标函数在任意待测试点的后验概率分布，具体包括以下步骤：

步骤S551，为高斯过程回归模型建立核函数；

步骤S554，根据所述高斯分布获得高斯分布函数；

步骤S555，获取新的数据点作为待测试点；

步骤S556，根据所述高斯分布函数，获得所述待测试点和所述已知点数据集的联合高斯分布；

9.根据权利要求6所述的一种基于优化随机森林模型的锯齿棉品级分类方法，其特征在于，所述步骤S56中根据所述后验概率分布构造采集函数，具体包括以下步骤：

步骤S562，根据所述概率密度函数建立采集函数。

10.一种基于优化随机森林模型的锯齿棉品级分类系统，用于执行如上述权利要求1-9任一所述的一种基于优化随机森林模型的锯齿棉品级分类方法，其特征在于，包括以下模块：