CN111797883A

CN111797883A - 一种基于随机森林的煤种识别方法

Info

Publication number: CN111797883A
Application number: CN201910939227.5A
Authority: CN
Inventors: 朱青国; 朱继峰; 闫飞; 郑水明; 郭恩陶; 杨展
Original assignee: Zhejiang Zheneng Zhongmei Zhoushan Coal Power Co ltd
Current assignee: Zhejiang Zheneng Zhongmei Zhoushan Coal Power Co ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-10-20
Anticipated expiration: 2039-09-30
Also published as: CN111797883B

Abstract

本发明公开了一种基于随机森林的煤种识别方法是通过随机森林模型的方法来识别煤种，随机森林模型是一种集成学习模型，可以解决多分类问题，且容易实现，泛化能力强。基于随机森林的方法不需要增加额外的煤种检测设备，也不需要针对制粉系统建立复杂的物理模型，只需要磨煤机运行参数和与煤种信息相关的机组运行参数的历史数据以及历史堆煤单就能完成煤种识别模型的建立，方便推广。

Description

一种基于随机森林的煤种识别方法

技术领域

本发明涉及煤种识别技术领域，更确切地说涉及一种基于随机森林的煤种识别方法。

背景技术

对于火力发电厂，入炉的煤种对锅炉的燃烧有着很大的影响。对于不同的煤种，发电厂的运行部门需要针对当前煤种调整锅炉的参数，保证电厂的安全和经济运行。一旦煤场的操作人员上错煤，导致运行人员采用另一套锅炉运行参数，不仅可能使得锅炉的效率降低，还有可能发生安全事故。因此，实时判别出制粉系统正在使用的煤种有着十分重要的意义。目前通常使用煤种检测设备或针对制粉系统建立复杂的物理模型来识别煤种，不仅增加成本，操作也十分麻烦。

发明内容

本发明要解决的技术问题是，提供一种基于随机森林的煤种识别方法，该煤种识别方法无需使用煤种检测设别或针对制粉系统建立复杂的物理模型，有效地降低成本，且识别煤种也非常方便。

本发明的技术解决方案是，提供一种基于随机森林的煤种识别方法，包括如下步骤：

S1、在磨煤机历史运行参数的基础上加入与煤种信息相关的机组运行参数并创建训练数据集，对训练数据集数据进行预处理；

S2、以负荷和瞬时给煤量为特征进行K均值聚类实现工况的划分，构造相应的子训练集；

S3、对于不同工况下的子训练集建立相应的随机森林分类模型，利用交叉验证法确定随机森林的超参数；

S4、将测试样本的磨煤机运行参数和与煤种信息相关的机组运行参数作为输入，相应工况下的随机森林模型的输出结果即为煤种判别结果。

采用以上结构后，本发明的基于随机森林的煤种识别方法，与现有技术相比，具有以下优点：

由于本发明的基于随机森林的煤种识别方法是通过随机森林模型的方法来识别煤种，随机森林模型是一种集成学习模型，可以解决多分类问题，且容易实现，泛化能力强。基于随机森林的方法不需要增加额外的煤种检测设备，也不需要针对制粉系统建立复杂的物理模型，只需要磨煤机运行参数和与煤种信息相关的机组运行参数的历史数据以及历史堆煤单就能完成煤种识别模型的建立，方便推广。

作为改进，在步骤S1中，具体包括以下步骤：S101、挑选与煤种信息相关的机组运行参数变量；S102、提取磨煤机运行参数以及与煤种信息相关的机组运行参数的历史数据；S103、剔除异常值数据；S104、根据历史堆煤单对磨煤机运行参数和与煤种信息相关的机组运行参数的历史数据进行标签，构造训练集。

作为改进，在步骤S104中，所述的训练集的输入为磨煤机运行参数和与煤种信息相关的机组运行参数，表示为

i＝1,2,...,N，N为训练集中样本点的个数，L为磨煤机运行参数以及与煤种信息相关的机组运行参数的总个数；训练集的输出表示为y_i,i＝1,2,...,N，y_i取值为1,2,...,M,M为需要识别的煤种的种类。

作为改进，在步骤S104中，所述的煤种信息包括煤种硫份、水份、可磨系数、灰份和热值。

作为改进，与煤种硫份相关的机组运行参数包括机组脱硫标准干态原烟气SO2含量、吸收塔供浆电动调节阀开度、吸收塔供浆流量、吸收塔石膏浆液PH值两选PH值两选输出；与煤种水份相关的机组运行参数包括引风机电流；与煤种可磨系数相关的机组运行参数包括给煤机瞬时给煤量与磨煤机电流之比；与煤种灰份相关的机组运行参数包括空预器进口烟气温度三选输出；与煤种热值相关的机组运行参数包括总煤量与负荷之比；

作为改进，在步骤S2中，具体包括以下步骤：S201、提取每一个训练样本对应的负荷和瞬时给煤量这两个特征构成聚类数据集，用

i＝1,2,...,N表示，并使用公式

将其归一化到0到1之间，其中b_min取值为0，b_max取值为1；S202、将归一化后的样本点作为K均值聚类算法的输入，将工况进行划分；S203、K的取值即为划分出的不同工况数；K的确定方法如下：使K取2到10之间的整数，计算K取不同值时聚类结果的silhouette系数；silhouette系数的计算公式如下：对于样本i，计算该样本到同簇其他样本的平均距离a(i)，称为簇内不相似度，计算该样本到其他某簇的所有样本的平均距离b_ij，b_i＝min(b_i1,b_i2,...,b_ik)，称为簇间不相似度；

所有样本s(i)的均值称为聚类结果的silhouette系数；silhouette系数取值范围在-1到+1之间，silhouette系数越大说明聚类的效果越好；选择使silhouette系数最大的K作为划分的工况数。

作为改进，在步骤S202中，K均值聚类按以下步骤进行：S2021、随机分配K个中心点，

m＝1,2,...,K；K为所要聚类的个数；S2022、计算聚类数据集内样本点Z_i到各个聚类中心C_m,m＝1,2,...,K之间的欧式距离，将该样本点分配到与其距离最小的那个聚类中心所在的簇中；如此遍历数据集中的每一个样本点；S2023、重新分配K个聚类中心：

m＝1,2,...,K，M为该簇中样本点的个数，将新生成的K个簇的中心作为新的K个聚类中心；S2024、重复上述步骤(2)～(3)，直到每一簇的聚类中心不再改变为止。

作为改进，在步骤S3中，具体包括以下步骤：S301、对于每一种工况的子训练集采用有放回的随机重采样，随机采样的样本个数与子训练集的样本个数相同；通过这样的方式采样T次，我们就可以得到T个不同的采样集；S302、采用特征随机选择机制，在每个采样集上随机选择数据集的k个特征；S303、在每个采样集上根据步骤S302选取的k个特征建立CART树对煤种进行分类；S304、由T个采样集训练得到T棵CART树；对于每一个样本输入，这T棵CART树会得到T个输出结果，采用简单投票法即可得到该样本输入在整个随机森林上的输出结果；S305、随机森林模型包含两个超参数：采样集个数T和最小叶节点样本个数；采用10折交叉验证法加上网格搜索法确定这两个超参数。

作为改进，在步骤S303中，CART树的生成步骤如下：S3031、以步骤S302得到的采样集为根节点；S3032、设节点的训练数据集为D，计算现有特征对该数据集的基尼指数，此时对每一个特征A，对其可能取的每个值a，根据样本点对A＝a的测试为“是”或“否”将D分割成D₁和D₂两部分，利用式

计算A＝a时的基尼指数；基尼指数的计算方法如下：多分类问题中，假设有K个类，对于给定的样本集合D，其基尼指数为

这里C_k是D中属于第k类的样本子集，K是类的个数；S3033、在所有可能的特征A以及它们所有可能的切分点a中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点；依最优特征与最优切分点，从现结点生成两个子节点，将训练数据集依特征分配到两个子节点中去；S3034、对两个子节点递归地调用步骤(2)和步骤(3)，直至满足停止条件，生成CART决策树；停止条件包括:(i)样本集的基尼指数小于预定阈值(样本基本属于一类)；(ii)没有更多的特征；(iii)节点中的样本个数小于预定阈值。

作为改进，在步骤S305中，确定超参数的步骤如下：S3051、将训练集划分为10个大小相似的互斥子集；S3052、每次用9个子集的并集作为训练集，剩下的那个子集作为测试集，这样就可以得到10组训练和测试集，从而可进行10次训练测试；S3053、以10个测试结果分类准确率的均值作为对该随机森林分类模型泛化能力的评价；S3054、采用网格搜索的方法遍历两个超参数的多组取值，选取使10折交叉验证平均分类准确率最高的模型超参数作为最优超参数。

作为改进，在步骤S4中，具体包括以下步骤：S401、对于测试样本，计算测试样本的负荷和瞬时给煤量到步骤S3得到的各个聚类中心的欧氏距离，选择与其距离最小的聚类中心所在的那一类作为该测试样本所属的工况；S402、将测试样本的磨煤机运行参数和与煤种信息相关的机组运行参数作为输入，相应工况下的随机森林模型的输出结果即为本发明的煤种判别结果。

附图说明

图1为本发明的silhouette系数与K取值的关系图。

图2为本发明的只采用磨煤机运行参数作为模型输入的测试结果。

图3为本发明的以磨煤机运行参数和反映煤种信息的机组运行参数共同作为模型输入的测试结果。

具体实施方式

为了更好得理解本申请，将参考附图对本申请的各个方面做出更详细的说明。应理解，这些详细说明只是对本申请的示例性实施方式的描述，而非以任何方式限制本申请的范围。在说明书全文中，相同的附图标号指代相同的元件。

下面本具体实施例用一个火力发电厂磨煤机的真实案例来阐述具体操作步骤以及验证所提出方法的有效性。

该案例中的磨煤机主要用到4种不同类型的煤：澳煤、澳蒙煤、俄煤和印尼煤，分别将其用标签1、2、3、4表示。用于建模的磨煤机运行参数总计23个，具体名称见表1。反映煤种信息的机组运行参数总计10个，反映的煤种信息与具体名称见表2。以上参数的采样频率均为1分钟。

表1

表2

本发明公开了一种随机森林的煤种识别方法，包括以下步骤：

S1、在磨煤机历史运行参数的基础上加入与煤种信息相关的机组运行参数并创建训练数据集，对训练数据集数据进行预处理。具体包括以下步骤：

S101、挑选与煤种信息相关的机组运行参数变量。

S102、提取磨煤机运行参数以及与煤种信息相关的机组运行参数的历史数据。

S103、剔除异常值数据。

S104、根据历史堆煤单对磨煤机运行参数和与煤种信息相关的机组运行参数的历史数据进行标签，构造训练集。

所述的训练集的输入为磨煤机运行参数和与煤种信息相关的机组运行参数，表示为

i＝1,2,...,N，N为训练集中样本点的个数，L为磨煤机运行参数以及与煤种信息相关的机组运行参数的总个数。训练集的输出表示为y_i,i＝1,2,...,N，y_i取值为1,2,...,M,M为需要识别的煤种的种类。

所述的煤种信息包括煤种硫份、水份、可磨系数、灰份和热值。与煤种硫份相关的机组运行参数包括机组脱硫标准干态原烟气SO2含量、吸收塔供浆电动调节阀开度、吸收塔供浆流量、吸收塔石膏浆液PH值两选PH值两选输出。与煤种水份相关的机组运行参数包括引风机电流。与煤种可磨系数相关的机组运行参数包括给煤机瞬时给煤量与磨煤机电流之比。与煤种灰份相关的机组运行参数包括空预器进口烟气温度三选输出。与煤种热值相关的机组运行参数包括总煤量与负荷之比。

根据步骤S1，训练集和测试集的输入为33个运行参数(包括磨煤机的运行参数和反映煤种信息的机组运行参数)，输出为煤种的标签。训练集和测试集的选取见表3。训练集包含23天的数据，总计33120个样本点。测试集包含5天的数据，总计7200个样本点。

表3S2、以负荷和瞬时给煤量为特征进行K均值聚类实现工况的划分，构造相应的子训练集；具体包括以下步骤：

S201、提取每一个训练样本，每一个时刻的磨煤机运行参数和与煤种信息相关的机组运行参数构成一个训练样本，训练集是由训练样本构成的集合，对应的负荷和瞬时给煤量这两个特征构成聚类数据集，用

i＝1,2,...,N表示，并使用公式

将其归一化到0到1之间，其中b_min取值为0，b_max取值为1；

S202、将归一化后的样本点作为K均值聚类算法的输入，将工况进行划分；K均值聚类按以下步骤进行：

S2021、随机分配K个中心点，

m＝1,2,...,K；K为所要聚类的个数；

S2022、计算聚类数据集内样本点Z_i到各个聚类中心C_m,m＝1,2,...,K之间的欧式距离，将该样本点分配到与其距离最小的那个聚类中心所在的簇中；如此遍历数据集中的每一个样本点；

S2023、重新分配K个聚类中心：

m＝1,2,...,K，M为该簇中样本点的个数，将新生成的K个簇的中心作为新的K个聚类中心；

S2024、重复上述步骤(2)～(3)，直到每一簇的聚类中心不再改变为止。

S203、K的取值即为划分出的不同工况数；K的确定方法如下：使K取2到10之间的整数，计算K取不同值时聚类结果的silhouette系数；silhouette系数的计算公式如下：对于样本i，计算该样本到同簇其他样本的平均距离a(i)，称为簇内不相似度，计算该样本到其他某簇的所有样本的平均距离b_ij，b_i＝min(b_i1,b_i2,...,b_ik)，称为簇间不相似度；

根据步骤S2利用K均值聚类算法将训练集按工况划分为K个子训练集。为确定K的最佳取值，绘制silhouette系数与K取值的关系图，见图1。由此确定K的取值为2，此时聚类结果的silhouette系数为0.49。

S3、对于不同工况下的子训练集建立相应的随机森林分类模型，利用交叉验证法确定随机森林的超参数；具体包括以下步骤：

S301、对于每一种工况的子训练集采用有放回的随机重采样，随机采样的样本个数与子训练集的样本个数相同；通过这样的方式采样T次，我们就可以得到T个不同的采样集；

S302、采用特征随机选择机制，在每个采样集上随机选择数据集的k个特征；

S303、在每个采样集上根据步骤S302选取的k个特征建立CART树对煤种进行分类；CART树的生成步骤如下：

S3031、以步骤S302得到的采样集为根节点；

S3032、设节点的训练数据集为D，计算现有特征对该数据集的基尼指数，此时对每一个特征A，对其可能取的每个值a，根据样本点对A＝a的测试为“是”或“否”将D分割成D₁和D₂两部分，利用式

这里C_k是D中属于第k类的样本子集，K是类的个数；

S3033、在所有可能的特征A以及它们所有可能的切分点a中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点；依最优特征与最优切分点，从现结点生成两个子节点，将训练数据集依特征分配到两个子节点中去；

S3034、对两个子节点递归地调用步骤(2)和步骤(3)，直至满足停止条件，生成CART决策树；停止条件包括:

(i)样本集的基尼指数小于预定阈值(样本基本属于一类)；

(ii)没有更多的特征；

(iii)节点中的样本个数小于预定阈值。

S304、由T个采样集训练得到T棵CART树；对于每一个样本输入，这T棵CART树会得到T个输出结果，采用简单投票法即可得到该样本输入在整个随机森林上的输出结果；

S305、随机森林模型包含两个超参数：采样集个数T和最小叶节点样本个数；采用10折交叉验证法加上网格搜索法确定这两个超参数。确定超参数的步骤如下：

S3051、将训练集划分为10个大小相似的互斥子集；

S3052、每次用9个子集的并集作为训练集，剩下的那个子集作为测试集，这样就可以得到10组训练和测试集，从而可进行10次训练测试；

S3053、以10个测试结果分类准确率的均值作为对该随机森林分类模型泛化能力的评价；

S3054、采用网格搜索的方法遍历两个超参数的多组取值，选取使10折交叉验证平均分类准确率最高的模型超参数作为最优超参数。

根据步骤S3，在2个子训练集上分别训练出2个随机森林模型，随机森林模型的超参数选为：采样集T的个数选为300，最小叶节点样本个数选为1，每个采样集随机选择的特征数k选为5。

S4、将测试样本的磨煤机运行参数和与煤种信息相关的机组运行参数作为输入，相应工况下的随机森林模型的输出结果即为煤种判别结果。具体包括以下步骤：

S401、对于测试样本，计算测试样本的负荷和瞬时给煤量到步骤S3得到的各个聚类中心的欧氏距离，选择与其距离最小的聚类中心所在的那一类作为该测试样本所属的工况；

S402、将测试样本的磨煤机运行参数和与煤种信息相关的机组运行参数作为输入，相应工况下的随机森林模型的输出结果即为本发明的煤种判别结果。

根据步骤S4，在测试集上对步骤S3得到的随机森林模型进行测试，得到的测试结果以混淆矩阵的方式呈现。混淆矩阵的每一行为真实的类别，每一列为预测的类别。第i行第j列上的数字代表真实为i类但被预测为j类的样本数与i类实际所含样本数的比值。混淆矩阵可以用来衡量分类的准确度。只采用磨煤机运行参数作为模型输入的测试结果见图2。以磨煤机运行参数和反映煤种信息的机组运行参数共同作为模型输入的测试结果见图3。由图2和图3的对比可知，以磨煤机运行参数和反映煤种信息的机组运行参数共同作为模型输入可以取得更高的分类准确率，第3类和第4类煤种的分类准确率都达到了1，第1类和第2类也都达到了0.97和0.91。可见本发明在该案例上有较高的分类准确率，能够实现根据磨煤机运行参数在线判别煤种。

本发明基于随机森林方法，利用磨煤机历史运行参数和能反映出煤种信息的机组运行参数进行建模。在数据预处理阶段，本发明将历史运行参数中的异常工况数据(如故障引起的停机等)进行剔除，并加入能够反映煤种信息的机组运行参数，打上煤种类别标签后创建训练集。在工况划分阶段，本发明对训练集中每个样本点的负荷和磨煤机瞬时给煤量采用K均值方法进行聚类，将训练集划分为多个子训练集。在建立分类模型阶段，本发明针对工况划分阶段得到的子训练集分别建立随机森林分类模型，使用交叉验证法确定随机森林模型的超参数。本发明考虑了不同工况对磨煤机运行参数的影响，以磨煤机当前运行参数和反映煤种信息的机组运行参数作为模型的输入，识别当前使用的煤种。