CN111797883A - 一种基于随机森林的煤种识别方法 - Google Patents

一种基于随机森林的煤种识别方法 Download PDF

Info

Publication number
CN111797883A
CN111797883A CN201910939227.5A CN201910939227A CN111797883A CN 111797883 A CN111797883 A CN 111797883A CN 201910939227 A CN201910939227 A CN 201910939227A CN 111797883 A CN111797883 A CN 111797883A
Authority
CN
China
Prior art keywords
coal
operation parameters
sample
random forest
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910939227.5A
Other languages
English (en)
Other versions
CN111797883B (zh
Inventor
朱青国
朱继峰
闫飞
郑水明
郭恩陶
杨展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Zheneng Zhongmei Zhoushan Coal Power Co ltd
Original Assignee
Zhejiang Zheneng Zhongmei Zhoushan Coal Power Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Zheneng Zhongmei Zhoushan Coal Power Co ltd filed Critical Zhejiang Zheneng Zhongmei Zhoushan Coal Power Co ltd
Priority to CN201910939227.5A priority Critical patent/CN111797883B/zh
Publication of CN111797883A publication Critical patent/CN111797883A/zh
Application granted granted Critical
Publication of CN111797883B publication Critical patent/CN111797883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于随机森林的煤种识别方法是通过随机森林模型的方法来识别煤种,随机森林模型是一种集成学习模型,可以解决多分类问题,且容易实现,泛化能力强。基于随机森林的方法不需要增加额外的煤种检测设备,也不需要针对制粉系统建立复杂的物理模型,只需要磨煤机运行参数和与煤种信息相关的机组运行参数的历史数据以及历史堆煤单就能完成煤种识别模型的建立,方便推广。

Description

一种基于随机森林的煤种识别方法
技术领域
本发明涉及煤种识别技术领域,更确切地说涉及一种基于随机森林的煤种识别方法。
背景技术
对于火力发电厂,入炉的煤种对锅炉的燃烧有着很大的影响。对于不同的煤种,发电厂的运行部门需要针对当前煤种调整锅炉的参数,保证电厂的安全和经济运行。一旦煤场的操作人员上错煤,导致运行人员采用另一套锅炉运行参数,不仅可能使得锅炉的效率降低,还有可能发生安全事故。因此,实时判别出制粉系统正在使用的煤种有着十分重要的意义。目前通常使用煤种检测设备或针对制粉系统建立复杂的物理模型来识别煤种,不仅增加成本,操作也十分麻烦。
发明内容
本发明要解决的技术问题是,提供一种基于随机森林的煤种识别方法,该煤种识别方法无需使用煤种检测设别或针对制粉系统建立复杂的物理模型,有效地降低成本,且识别煤种也非常方便。
本发明的技术解决方案是,提供一种基于随机森林的煤种识别方法,包括如下步骤:
S1、在磨煤机历史运行参数的基础上加入与煤种信息相关的机组运行参数并创建训练数据集,对训练数据集数据进行预处理;
S2、以负荷和瞬时给煤量为特征进行K均值聚类实现工况的划分,构造相应的子训练集;
S3、对于不同工况下的子训练集建立相应的随机森林分类模型,利用交叉验证法确定随机森林的超参数;
S4、将测试样本的磨煤机运行参数和与煤种信息相关的机组运行参数作为输入,相应工况下的随机森林模型的输出结果即为煤种判别结果。
采用以上结构后,本发明的基于随机森林的煤种识别方法,与现有技术相比,具有以下优点:
由于本发明的基于随机森林的煤种识别方法是通过随机森林模型的方法来识别煤种,随机森林模型是一种集成学习模型,可以解决多分类问题,且容易实现,泛化能力强。基于随机森林的方法不需要增加额外的煤种检测设备,也不需要针对制粉系统建立复杂的物理模型,只需要磨煤机运行参数和与煤种信息相关的机组运行参数的历史数据以及历史堆煤单就能完成煤种识别模型的建立,方便推广。
作为改进,在步骤S1中,具体包括以下步骤:S101、挑选与煤种信息相关的机组运行参数变量;S102、提取磨煤机运行参数以及与煤种信息相关的机组运行参数的历史数据;S103、剔除异常值数据;S104、根据历史堆煤单对磨煤机运行参数和与煤种信息相关的机组运行参数的历史数据进行标签,构造训练集。
作为改进,在步骤S104中,所述的训练集的输入为磨煤机运行参数和与煤种信息相关的机组运行参数,表示为
Figure BDA0002222430890000021
i=1,2,...,N,N为训练集中样本点的个数,L为磨煤机运行参数以及与煤种信息相关的机组运行参数的总个数;训练集的输出表示为yi,i=1,2,...,N,yi取值为1,2,...,M,M为需要识别的煤种的种类。
作为改进,在步骤S104中,所述的煤种信息包括煤种硫份、水份、可磨系数、灰份和热值。
作为改进,与煤种硫份相关的机组运行参数包括机组脱硫标准干态原烟气SO2含量、吸收塔供浆电动调节阀开度、吸收塔供浆流量、吸收塔石膏浆液PH值两选PH值两选输出;与煤种水份相关的机组运行参数包括引风机电流;与煤种可磨系数相关的机组运行参数包括给煤机瞬时给煤量与磨煤机电流之比;与煤种灰份相关的机组运行参数包括空预器进口烟气温度三选输出;与煤种热值相关的机组运行参数包括总煤量与负荷之比;
作为改进,在步骤S2中,具体包括以下步骤:S201、提取每一个训练样本对应的负荷和瞬时给煤量这两个特征构成聚类数据集,用
Figure BDA0002222430890000022
i=1,2,...,N表示,并使用公式
Figure BDA0002222430890000023
将其归一化到0到1之间,其中bmin取值为0,bmax取值为1;S202、将归一化后的样本点作为K均值聚类算法的输入,将工况进行划分;S203、K的取值即为划分出的不同工况数;K的确定方法如下:使K取2到10之间的整数,计算K取不同值时聚类结果的silhouette系数;silhouette系数的计算公式如下:对于样本i,计算该样本到同簇其他样本的平均距离a(i),称为簇内不相似度,计算该样本到其他某簇的所有样本的平均距离bij,bi=min(bi1,bi2,...,bik),称为簇间不相似度;
Figure BDA0002222430890000024
所有样本s(i)的均值称为聚类结果的silhouette系数;silhouette系数取值范围在-1到+1之间,silhouette系数越大说明聚类的效果越好;选择使silhouette系数最大的K作为划分的工况数。
作为改进,在步骤S202中,K均值聚类按以下步骤进行:S2021、随机分配K个中心点,
Figure BDA0002222430890000031
m=1,2,...,K;K为所要聚类的个数;S2022、计算聚类数据集内样本点Zi到各个聚类中心Cm,m=1,2,...,K之间的欧式距离,将该样本点分配到与其距离最小的那个聚类中心所在的簇中;如此遍历数据集中的每一个样本点;S2023、重新分配K个聚类中心:
Figure BDA0002222430890000032
m=1,2,...,K,M为该簇中样本点的个数,将新生成的K个簇的中心作为新的K个聚类中心;S2024、重复上述步骤(2)~(3),直到每一簇的聚类中心不再改变为止。
作为改进,在步骤S3中,具体包括以下步骤:S301、对于每一种工况的子训练集采用有放回的随机重采样,随机采样的样本个数与子训练集的样本个数相同;通过这样的方式采样T次,我们就可以得到T个不同的采样集;S302、采用特征随机选择机制,在每个采样集上随机选择数据集的k个特征;S303、在每个采样集上根据步骤S302选取的k个特征建立CART树对煤种进行分类;S304、由T个采样集训练得到T棵CART树;对于每一个样本输入,这T棵CART树会得到T个输出结果,采用简单投票法即可得到该样本输入在整个随机森林上的输出结果;S305、随机森林模型包含两个超参数:采样集个数T和最小叶节点样本个数;采用10折交叉验证法加上网格搜索法确定这两个超参数。
作为改进,在步骤S303中,CART树的生成步骤如下:S3031、以步骤S302得到的采样集为根节点;S3032、设节点的训练数据集为D,计算现有特征对该数据集的基尼指数,此时对每一个特征A,对其可能取的每个值a,根据样本点对A=a的测试为“是”或“否”将D分割成D1和D2两部分,利用式
Figure BDA0002222430890000033
计算A=a时的基尼指数;基尼指数的计算方法如下:多分类问题中,假设有K个类,对于给定的样本集合D,其基尼指数为
Figure BDA0002222430890000034
这里Ck是D中属于第k类的样本子集,K是类的个数;S3033、在所有可能的特征A以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点;依最优特征与最优切分点,从现结点生成两个子节点,将训练数据集依特征分配到两个子节点中去;S3034、对两个子节点递归地调用步骤(2)和步骤(3),直至满足停止条件,生成CART决策树;停止条件包括:(i)样本集的基尼指数小于预定阈值(样本基本属于一类);(ii)没有更多的特征;(iii)节点中的样本个数小于预定阈值。
作为改进,在步骤S305中,确定超参数的步骤如下:S3051、将训练集划分为10个大小相似的互斥子集;S3052、每次用9个子集的并集作为训练集,剩下的那个子集作为测试集,这样就可以得到10组训练和测试集,从而可进行10次训练测试;S3053、以10个测试结果分类准确率的均值作为对该随机森林分类模型泛化能力的评价;S3054、采用网格搜索的方法遍历两个超参数的多组取值,选取使10折交叉验证平均分类准确率最高的模型超参数作为最优超参数。
作为改进,在步骤S4中,具体包括以下步骤:S401、对于测试样本,计算测试样本的负荷和瞬时给煤量到步骤S3得到的各个聚类中心的欧氏距离,选择与其距离最小的聚类中心所在的那一类作为该测试样本所属的工况;S402、将测试样本的磨煤机运行参数和与煤种信息相关的机组运行参数作为输入,相应工况下的随机森林模型的输出结果即为本发明的煤种判别结果。
附图说明
图1为本发明的silhouette系数与K取值的关系图。
图2为本发明的只采用磨煤机运行参数作为模型输入的测试结果。
图3为本发明的以磨煤机运行参数和反映煤种信息的机组运行参数共同作为模型输入的测试结果。
具体实施方式
为了更好得理解本申请,将参考附图对本申请的各个方面做出更详细的说明。应理解,这些详细说明只是对本申请的示例性实施方式的描述,而非以任何方式限制本申请的范围。在说明书全文中,相同的附图标号指代相同的元件。
下面本具体实施例用一个火力发电厂磨煤机的真实案例来阐述具体操作步骤以及验证所提出方法的有效性。
该案例中的磨煤机主要用到4种不同类型的煤:澳煤、澳蒙煤、俄煤和印尼煤,分别将其用标签1、2、3、4表示。用于建模的磨煤机运行参数总计23个,具体名称见表1。反映煤种信息的机组运行参数总计10个,反映的煤种信息与具体名称见表2。以上参数的采样频率均为1分钟。
Figure BDA0002222430890000041
Figure BDA0002222430890000051
表1
Figure BDA0002222430890000052
表2
本发明公开了一种随机森林的煤种识别方法,包括以下步骤:
S1、在磨煤机历史运行参数的基础上加入与煤种信息相关的机组运行参数并创建训练数据集,对训练数据集数据进行预处理。具体包括以下步骤:
S101、挑选与煤种信息相关的机组运行参数变量。
S102、提取磨煤机运行参数以及与煤种信息相关的机组运行参数的历史数据。
S103、剔除异常值数据。
S104、根据历史堆煤单对磨煤机运行参数和与煤种信息相关的机组运行参数的历史数据进行标签,构造训练集。
所述的训练集的输入为磨煤机运行参数和与煤种信息相关的机组运行参数,表示为
Figure BDA0002222430890000053
i=1,2,...,N,N为训练集中样本点的个数,L为磨煤机运行参数以及与煤种信息相关的机组运行参数的总个数。训练集的输出表示为yi,i=1,2,...,N,yi取值为1,2,...,M,M为需要识别的煤种的种类。
所述的煤种信息包括煤种硫份、水份、可磨系数、灰份和热值。与煤种硫份相关的机组运行参数包括机组脱硫标准干态原烟气SO2含量、吸收塔供浆电动调节阀开度、吸收塔供浆流量、吸收塔石膏浆液PH值两选PH值两选输出。与煤种水份相关的机组运行参数包括引风机电流。与煤种可磨系数相关的机组运行参数包括给煤机瞬时给煤量与磨煤机电流之比。与煤种灰份相关的机组运行参数包括空预器进口烟气温度三选输出。与煤种热值相关的机组运行参数包括总煤量与负荷之比。
根据步骤S1,训练集和测试集的输入为33个运行参数(包括磨煤机的运行参数和反映煤种信息的机组运行参数),输出为煤种的标签。训练集和测试集的选取见表3。训练集包含23天的数据,总计33120个样本点。测试集包含5天的数据,总计7200个样本点。
Figure BDA0002222430890000061
表3S2、以负荷和瞬时给煤量为特征进行K均值聚类实现工况的划分,构造相应的子训练集;具体包括以下步骤:
S201、提取每一个训练样本,每一个时刻的磨煤机运行参数和与煤种信息相关的机组运行参数构成一个训练样本,训练集是由训练样本构成的集合,对应的负荷和瞬时给煤量这两个特征构成聚类数据集,用
Figure BDA0002222430890000071
i=1,2,...,N表示,并使用公式
Figure BDA0002222430890000072
将其归一化到0到1之间,其中bmin取值为0,bmax取值为1;
S202、将归一化后的样本点作为K均值聚类算法的输入,将工况进行划分;K均值聚类按以下步骤进行:
S2021、随机分配K个中心点,
Figure BDA0002222430890000073
m=1,2,...,K;K为所要聚类的个数;
S2022、计算聚类数据集内样本点Zi到各个聚类中心Cm,m=1,2,...,K之间的欧式距离,将该样本点分配到与其距离最小的那个聚类中心所在的簇中;如此遍历数据集中的每一个样本点;
S2023、重新分配K个聚类中心:
Figure BDA0002222430890000074
m=1,2,...,K,M为该簇中样本点的个数,将新生成的K个簇的中心作为新的K个聚类中心;
S2024、重复上述步骤(2)~(3),直到每一簇的聚类中心不再改变为止。
S203、K的取值即为划分出的不同工况数;K的确定方法如下:使K取2到10之间的整数,计算K取不同值时聚类结果的silhouette系数;silhouette系数的计算公式如下:对于样本i,计算该样本到同簇其他样本的平均距离a(i),称为簇内不相似度,计算该样本到其他某簇的所有样本的平均距离bij,bi=min(bi1,bi2,...,bik),称为簇间不相似度;
Figure BDA0002222430890000075
所有样本s(i)的均值称为聚类结果的silhouette系数;silhouette系数取值范围在-1到+1之间,silhouette系数越大说明聚类的效果越好;选择使silhouette系数最大的K作为划分的工况数。
根据步骤S2利用K均值聚类算法将训练集按工况划分为K个子训练集。为确定K的最佳取值,绘制silhouette系数与K取值的关系图,见图1。由此确定K的取值为2,此时聚类结果的silhouette系数为0.49。
S3、对于不同工况下的子训练集建立相应的随机森林分类模型,利用交叉验证法确定随机森林的超参数;具体包括以下步骤:
S301、对于每一种工况的子训练集采用有放回的随机重采样,随机采样的样本个数与子训练集的样本个数相同;通过这样的方式采样T次,我们就可以得到T个不同的采样集;
S302、采用特征随机选择机制,在每个采样集上随机选择数据集的k个特征;
S303、在每个采样集上根据步骤S302选取的k个特征建立CART树对煤种进行分类;CART树的生成步骤如下:
S3031、以步骤S302得到的采样集为根节点;
S3032、设节点的训练数据集为D,计算现有特征对该数据集的基尼指数,此时对每一个特征A,对其可能取的每个值a,根据样本点对A=a的测试为“是”或“否”将D分割成D1和D2两部分,利用式
Figure BDA0002222430890000081
计算A=a时的基尼指数;基尼指数的计算方法如下:多分类问题中,假设有K个类,对于给定的样本集合D,其基尼指数为
Figure BDA0002222430890000082
这里Ck是D中属于第k类的样本子集,K是类的个数;
S3033、在所有可能的特征A以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点;依最优特征与最优切分点,从现结点生成两个子节点,将训练数据集依特征分配到两个子节点中去;
S3034、对两个子节点递归地调用步骤(2)和步骤(3),直至满足停止条件,生成CART决策树;停止条件包括:
(i)样本集的基尼指数小于预定阈值(样本基本属于一类);
(ii)没有更多的特征;
(iii)节点中的样本个数小于预定阈值。
S304、由T个采样集训练得到T棵CART树;对于每一个样本输入,这T棵CART树会得到T个输出结果,采用简单投票法即可得到该样本输入在整个随机森林上的输出结果;
S305、随机森林模型包含两个超参数:采样集个数T和最小叶节点样本个数;采用10折交叉验证法加上网格搜索法确定这两个超参数。确定超参数的步骤如下:
S3051、将训练集划分为10个大小相似的互斥子集;
S3052、每次用9个子集的并集作为训练集,剩下的那个子集作为测试集,这样就可以得到10组训练和测试集,从而可进行10次训练测试;
S3053、以10个测试结果分类准确率的均值作为对该随机森林分类模型泛化能力的评价;
S3054、采用网格搜索的方法遍历两个超参数的多组取值,选取使10折交叉验证平均分类准确率最高的模型超参数作为最优超参数。
根据步骤S3,在2个子训练集上分别训练出2个随机森林模型,随机森林模型的超参数选为:采样集T的个数选为300,最小叶节点样本个数选为1,每个采样集随机选择的特征数k选为5。
S4、将测试样本的磨煤机运行参数和与煤种信息相关的机组运行参数作为输入,相应工况下的随机森林模型的输出结果即为煤种判别结果。具体包括以下步骤:
S401、对于测试样本,计算测试样本的负荷和瞬时给煤量到步骤S3得到的各个聚类中心的欧氏距离,选择与其距离最小的聚类中心所在的那一类作为该测试样本所属的工况;
S402、将测试样本的磨煤机运行参数和与煤种信息相关的机组运行参数作为输入,相应工况下的随机森林模型的输出结果即为本发明的煤种判别结果。
根据步骤S4,在测试集上对步骤S3得到的随机森林模型进行测试,得到的测试结果以混淆矩阵的方式呈现。混淆矩阵的每一行为真实的类别,每一列为预测的类别。第i行第j列上的数字代表真实为i类但被预测为j类的样本数与i类实际所含样本数的比值。混淆矩阵可以用来衡量分类的准确度。只采用磨煤机运行参数作为模型输入的测试结果见图2。以磨煤机运行参数和反映煤种信息的机组运行参数共同作为模型输入的测试结果见图3。由图2和图3的对比可知,以磨煤机运行参数和反映煤种信息的机组运行参数共同作为模型输入可以取得更高的分类准确率,第3类和第4类煤种的分类准确率都达到了1,第1类和第2类也都达到了0.97和0.91。可见本发明在该案例上有较高的分类准确率,能够实现根据磨煤机运行参数在线判别煤种。
本发明基于随机森林方法,利用磨煤机历史运行参数和能反映出煤种信息的机组运行参数进行建模。在数据预处理阶段,本发明将历史运行参数中的异常工况数据(如故障引起的停机等)进行剔除,并加入能够反映煤种信息的机组运行参数,打上煤种类别标签后创建训练集。在工况划分阶段,本发明对训练集中每个样本点的负荷和磨煤机瞬时给煤量采用K均值方法进行聚类,将训练集划分为多个子训练集。在建立分类模型阶段,本发明针对工况划分阶段得到的子训练集分别建立随机森林分类模型,使用交叉验证法确定随机森林模型的超参数。本发明考虑了不同工况对磨煤机运行参数的影响,以磨煤机当前运行参数和反映煤种信息的机组运行参数作为模型的输入,识别当前使用的煤种。

Claims (11)

1.一种基于随机森林的煤种识别方法,其特征在于,包括如下步骤:
S1、在磨煤机历史运行参数的基础上加入与煤种信息相关的机组运行参数并创建训练数据集,对训练数据集数据进行预处理;
S2、以负荷和瞬时给煤量为特征进行K均值聚类实现工况的划分,构造相应的子训练集;
S3、对于不同工况下的子训练集建立相应的随机森林分类模型,利用交叉验证法确定随机森林的超参数;
S4、将测试样本的磨煤机运行参数和与煤种信息相关的机组运行参数作为输入,相应工况下的随机森林模型的输出结果即为煤种判别结果。
2.根据权利要求1所述的基于随机森林的煤种识别方法,其特征在于,在步骤S1中,具体包括以下步骤:
S101、挑选与煤种信息相关的机组运行参数变量;
S102、提取磨煤机运行参数以及与煤种信息相关的机组运行参数的历史数据;
S103、剔除异常值数据;
S104、根据历史堆煤单对磨煤机运行参数和与煤种信息相关的机组运行参数的历史数据进行标签,构造训练集。
3.根据权利要求2所述的基于随机森林的煤种识别方法,其特征在于,在步骤S104中,所述的训练集的输入为磨煤机运行参数和与煤种信息相关的机组运行参数,表示为
Figure FDA0002222430880000011
N为训练集中样本点的个数,L为磨煤机运行参数以及与煤种信息相关的机组运行参数的总个数;训练集的输出表示为yi,i=1,2,...,N,yi取值为1,2,...,M,M为需要识别的煤种的种类。
4.根据权利要求2所述的基于随机森林的煤种识别方法,其特征在于,在步骤S104中,所述的煤种信息包括煤种硫份、水份、可磨系数、灰份和热值。
5.根据权利要求4所述的基于随机森林的煤种识别方法,其特征在于,
与煤种硫份相关的机组运行参数包括机组脱硫标准干态原烟气SO2含量、吸收塔供浆电动调节阀开度、吸收塔供浆流量、吸收塔石膏浆液PH值两选PH值两选输出;
与煤种水份相关的机组运行参数包括引风机电流;
与煤种可磨系数相关的机组运行参数包括给煤机瞬时给煤量与磨煤机电流之比;
与煤种灰份相关的机组运行参数包括空预器进口烟气温度三选输出;
与煤种热值相关的机组运行参数包括总煤量与负荷之比。
6.根据权利要求1所述的基于随机森林的煤种识别方法,其特征在于,在步骤S2中,具体包括以下步骤:
S201、提取每一个训练样本对应的负荷和瞬时给煤量这两个特征构成聚类数据集,用
Figure FDA0002222430880000021
表示,并使用公式
Figure FDA0002222430880000022
将其归一化到0到1之间,其中bmin取值为0,bmax取值为1;
S202、将归一化后的样本点作为K均值聚类算法的输入,将工况进行划分;
S203、K的取值即为划分出的不同工况数;K的确定方法如下:使K取2到10之间的整数,计算K取不同值时聚类结果的silhouette系数;silhouette系数的计算公式如下:对于样本i,计算该样本到同簇其他样本的平均距离a(i),称为簇内不相似度,计算该样本到其他某簇的所有样本的平均距离bij,bi=min(bi1,bi2,...,bik),称为簇间不相似度;
Figure FDA0002222430880000023
所有样本s(i)的均值称为聚类结果的silhouette系数;silhouette系数取值范围在-1到+1之间,silhouette系数越大说明聚类的效果越好;选择使silhouette系数最大的K作为划分的工况数。
7.根据权利要求6所述的基于随机森林的煤种识别方法,其特征在于,在步骤S202中,K均值聚类按以下步骤进行:
S2021、随机分配K个中心点,
Figure FDA0002222430880000024
K为所要聚类的个数;
S2022、计算聚类数据集内样本点Zi到各个聚类中心Cm,m=1,2,...,K之间的欧式距离,将该样本点分配到与其距离最小的那个聚类中心所在的簇中;如此遍历数据集中的每一个样本点;
S2023、重新分配K个聚类中心:
Figure FDA0002222430880000025
M为该簇中样本点的个数,将新生成的K个簇的中心作为新的K个聚类中心;
S2024、重复上述步骤(2)~(3),直到每一簇的聚类中心不再改变为止。
8.根据权利要求1所述的基于随机森林的煤种识别方法,其特征在于,在步骤S3中,具体包括以下步骤:
S301、对于每一种工况的子训练集采用有放回的随机重采样,随机采样的样本个数与子训练集的样本个数相同;通过这样的方式采样T次,我们就可以得到T个不同的采样集;
S302、采用特征随机选择机制,在每个采样集上随机选择数据集的k个特征;
S303、在每个采样集上根据步骤S302选取的k个特征建立CART树对煤种进行分类;
S304、由T个采样集训练得到T棵CART树;对于每一个样本输入,这T棵CART树会得到T个输出结果,采用简单投票法即可得到该样本输入在整个随机森林上的输出结果;
S305、随机森林模型包含两个超参数:采样集个数T和最小叶节点样本个数;采用10折交叉验证法加上网格搜索法确定这两个超参数。
9.根据权利要求8所述的基于随机森林的煤种识别方法,其特征在于,在步骤S303中,CART树的生成步骤如下:
S3031、以步骤S302得到的采样集为根节点;
S3032、设节点的训练数据集为D,计算现有特征对该数据集的基尼指数,此时对每一个特征A,对其可能取的每个值a,根据样本点对A=a的测试为“是”或“否”将D分割成D1和D2两部分,利用式
Figure FDA0002222430880000031
计算A=a时的基尼指数;基尼指数的计算方法如下:多分类问题中,假设有K个类,对于给定的样本集合D,其基尼指数为
Figure FDA0002222430880000032
这里Ck是D中属于第k类的样本子集,K是类的个数;
S3033、在所有可能的特征A以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点;依最优特征与最优切分点,从现结点生成两个子节点,将训练数据集依特征分配到两个子节点中去;
S3034、对两个子节点递归地调用步骤(2)和步骤(3),直至满足停止条件,生成CART决策树;停止条件包括:
(i)样本集的基尼指数小于预定阈值;
(ii)没有更多的特征;
(iii)节点中的样本个数小于预定阈值。
10.根据权利要求8所述的基于随机森林的煤种识别方法,其特征在于,在步骤S305中,确定超参数的步骤如下:
S3051、将训练集划分为10个大小相似的互斥子集;
S3052、每次用9个子集的并集作为训练集,剩下的那个子集作为测试集,这样就可以得到10组训练和测试集,从而可进行10次训练测试;
S3053、以10个测试结果分类准确率的均值作为对该随机森林分类模型泛化能力的评价;
S3054、采用网格搜索的方法遍历两个超参数的多组取值,选取使10折交叉验证平均分类准确率最高的模型超参数作为最优超参数。
11.根据权利要求1所述的基于随机森林的煤种识别方法,其特征在于,在步骤S4中,具体包括以下步骤:
S401、对于测试样本,计算测试样本的负荷和瞬时给煤量到步骤S3得到的各个聚类中心的欧氏距离,选择与其距离最小的聚类中心所在的那一类作为该测试样本所属的工况;
S402、将测试样本的磨煤机运行参数和与煤种信息相关的机组运行参数作为输入,相应工况下的随机森林模型的输出结果即为本发明的煤种判别结果。
CN201910939227.5A 2019-09-30 2019-09-30 一种基于随机森林的煤种识别方法 Active CN111797883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910939227.5A CN111797883B (zh) 2019-09-30 2019-09-30 一种基于随机森林的煤种识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910939227.5A CN111797883B (zh) 2019-09-30 2019-09-30 一种基于随机森林的煤种识别方法

Publications (2)

Publication Number Publication Date
CN111797883A true CN111797883A (zh) 2020-10-20
CN111797883B CN111797883B (zh) 2021-04-16

Family

ID=72805607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910939227.5A Active CN111797883B (zh) 2019-09-30 2019-09-30 一种基于随机森林的煤种识别方法

Country Status (1)

Country Link
CN (1) CN111797883B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511047A (zh) * 2022-04-20 2022-05-17 北京寄云鼎城科技有限公司 挖掘机工作模式识别方法、计算机设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4584094A (en) * 1984-06-06 1986-04-22 Gadsby William H Method and apparatus for reclaiming coal
CN204638283U (zh) * 2015-04-21 2015-09-16 湖南红宇耐磨新材料股份有限公司 一种磨煤机料位工况识别装置
CN108549220A (zh) * 2018-03-29 2018-09-18 广东电网有限责任公司电力调度控制中心 燃煤机组运行状态实时评估方法及其系统
CN109063911A (zh) * 2018-08-03 2018-12-21 天津相和电气科技有限公司 一种基于门控循环单元网络的负荷聚合体分组预测方法
CN109492682A (zh) * 2018-10-30 2019-03-19 桂林电子科技大学 一种多分枝随机森林数据分类方法
CN109142317B (zh) * 2018-08-29 2020-05-08 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4584094A (en) * 1984-06-06 1986-04-22 Gadsby William H Method and apparatus for reclaiming coal
CN204638283U (zh) * 2015-04-21 2015-09-16 湖南红宇耐磨新材料股份有限公司 一种磨煤机料位工况识别装置
CN108549220A (zh) * 2018-03-29 2018-09-18 广东电网有限责任公司电力调度控制中心 燃煤机组运行状态实时评估方法及其系统
CN109063911A (zh) * 2018-08-03 2018-12-21 天津相和电气科技有限公司 一种基于门控循环单元网络的负荷聚合体分组预测方法
CN109142317B (zh) * 2018-08-29 2020-05-08 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN109492682A (zh) * 2018-10-30 2019-03-19 桂林电子科技大学 一种多分枝随机森林数据分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
S. CHEHREH CHELGANI: "Prediction of specific gravity of Afghan coal based on conventional coal properties by stepwise regression and random forest", 《ENERGY SOURCES, PART A: RECOVERY, UTILIZATION, AND ENVIRONMENTAL EFFECTS》 *
李鸿飞: "煤电机组能效状态评价系统研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *
王芳 等: "基于随机森林变量选择的飞灰含碳量预测模型", 《热力发电》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511047A (zh) * 2022-04-20 2022-05-17 北京寄云鼎城科技有限公司 挖掘机工作模式识别方法、计算机设备及介质
CN114511047B (zh) * 2022-04-20 2022-07-08 北京寄云鼎城科技有限公司 挖掘机工作模式识别方法、计算机设备及介质

Also Published As

Publication number Publication date
CN111797883B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN106709662B (zh) 一种电力设备运行工况划分方法
CN105677791B (zh) 用于分析风力发电机组的运行数据的方法和系统
CN104035331B (zh) 机组运行优化指导系统及其设备
Wahono et al. Genetic feature selection for software defect prediction
CN110532674A (zh) 一种燃煤电站锅炉炉膛温度测量方法
CN105787743A (zh) 基于样本聚类的欺诈交易检测方法
CN106991447A (zh) 一种嵌入式多类别属性标签动态特征选择算法
CN103676822B (zh) 火力发电厂的控制装置以及控制方法
CN103092975A (zh) 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
CN107038334A (zh) 循环流化床生活垃圾焚烧锅炉co排放预测系统及方法
CN108073145B (zh) 运转支援装置以及记录介质
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN111797883B (zh) 一种基于随机森林的煤种识别方法
CN114266297A (zh) 火电装备语义知识库、构建方法及零样本故障诊断方法
CN111986027A (zh) 基于人工智能的异常交易处理方法、装置
CN109766905A (zh) 基于自组织特征映射网络的目标分群方法
Sharma et al. A semi-supervised generalized vae framework for abnormality detection using one-class classification
CN104537383A (zh) 一种基于粒子群的海量组织机构数据分类方法及系统
Thota et al. Analysis of feature selection techniques for prediction of boiler efficiency in case of coal based power plant using real time data
CN107403391A (zh) 一种用于油田开发预安排项目的优化筛选方法
CN102955946A (zh) 基于线性分类树和神经网络的两阶段快速分类器
Shan et al. Software defect prediction model based on improved LLE-SVM
CN103886512A (zh) 基于灰度聚类的火电机组经济指标评价方法
Movahed et al. Modeling and optimization of NO emission for a steam power plant by data‐driven methods
CN115392710A (zh) 一种基于数据过滤的风电机组运行决策方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant