CN108959339A

CN108959339A - 煤质成分实时精准检测设备的大数据分析方法

Info

Publication number: CN108959339A
Application number: CN201810288665.5A
Authority: CN
Inventors: 王健东; 吕红雁
Original assignee: Beijing Enstrong Technology Co Ltd
Current assignee: Beijing Enstrong Technology Co Ltd
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2018-12-07
Anticipated expiration: 2038-04-03
Also published as: CN108959339B

Abstract

本发明公开了煤质成分实时精准检测设备的大数据分析方法,方法包括如下步骤：步骤A1：将煤质的六大成分值和环境光源感应的输出值经过换算模型处理后，输出两组数据，一组七个为原始电伏信号，另一组为经“煤质数值分析模型”处理后的六大成分数据；步骤A2：将经过“煤质数值分析模型”处理后的六大成分数据和七个原始电伏信号输入到大数据整理、存储、挖掘管理平台；步骤A3：大数据整理、存储、挖掘管理平台对两组数据进行共性、差异和剩余三种类型的分类和整理；解决了以往煤质成分实时精准检测设备在读取数据时整理、归类、存储、挖掘、处理和分析复杂的问题。

Description

煤质成分实时精准检测设备的大数据分析方法

技术领域

本发明涉及煤质六大成分值的数据分析领域，特别是煤质成分实时精准检测设备的大数据分析方法。

背景技术

以往的煤质成分实时精准检测设备，由于测量部分每50ms产生一组数据，每天有超过20万条的数据量，这些数据量是巨大的，对于这些大数据的整理、归类、存储、挖掘、处理和分析就变得复杂而重要。

发明内容

为解决现有技术中存在的问题，本发明提供了煤质成分实时精准检测设备的大数据分析方法，解决了以往煤质成分实时精准检测设备在读取数据时整理、归类、存储、挖掘、处理和分析复杂的问题。

本发明采用的技术方案如下：煤质成分实时精准检测设备的大数据分析方法,包括如下步骤：

步骤A1：将煤质的六大成分值和环境光源感应的输出值经过换算模型处理后，输出两组数据，一组为七个原始电伏信号，另一组为经“煤质数值分析模型”处理后的六大成分数据；

步骤A2：将经过“煤质数值分析模型”处理后的六大成分数据和七个原始电伏信号输入到大数据整理、存储、挖掘管理平台；

步骤A3：通过大数据整理、存储、挖掘管理平台对两组数据进行共性、差异和剩余三种类型的分类和整理；

步骤A4：将大数据整理、存储、挖掘管理平台处理后的数据输出到共性数据库、差异数据库和剩余数据库中。

优选地，步骤A1和A2的“煤质数值分析模型”为对煤质6大成分值的所有数据统一结构，同时按不同的特性算法，对所有数据按共性、差异和剩余三种类型进行分类、整理。

优选地，所述步骤A3和A4的大数据整理、存储、挖掘管理平台的算法为带记忆和裂变的修正K-Means算法。

优选地，带记忆和裂变的修正K-Means算法包括如下步骤：

步骤B1：将煤质的六大成分分别记为Ci(Q、M、A、V、Fc、S)，将Q、 V、S三个特性值对应三维空间X、Y、Z轴；

步骤B2：初始化煤种的数量K，K对应为煤种专家系统煤种的数量，当煤质成分实时精准检测设备的煤种专家系统扩充煤种数量时，深度学习系统会自动增加K的值；

步骤B3：自动存储上次数据挖掘输出的数据为K个质心点对应数据，并采用“记忆部分核心算法”处理数据；

步骤B4：将“记忆部分核心算法”处理后的数据进行“修正K-Means核心算法”处理；

步骤B5：将“修正K-Means核心算法”处理后的数据输出到“裂变部分核心算法”进行处理，最后将处理好的数据存储到共性数据库、差异数据库和剩余数据库中。

优选地，步骤B3的“记忆部分核心算法”包括如下步骤：

步骤C1:煤质成分实时精准检测设备将自动存储上次数据挖掘时找到的K 个质心点，定义为Zi，i＝1、2…K，算法初始化质心点，定义为Si，i＝1、2…K；

步骤C2：令Zi＝Si。

优选地，步骤B3的“修正K-Means核心算法”包括如下步骤：

步骤D1：对Ci(Q、V、S)里的V和S值分别乘以1000，以保持Q、V、 S三位同步；

步骤D2：再将Ci(Q、V、S)里的三个特性值进行欧式平方误差和运算；

其中，其中，C为当前选定的临时质心，Cx为煤质的热量值，Cy为煤质的挥发值，Ci为除C外的其它的数据，Cx.q为在X轴的发热量成分值；Cy.q表示为在Y轴挥发量值,Cx.s为在X轴煤质的含硫成分值；Cy.s为在Y轴含硫量值， Cx.v在X轴挥化分值；Cy.v表示在Y轴挥发量值；

步骤D3：如果SSE已经收敛，则找到了K个质心点，输出SSE所对应的K 个质心点，输出数据进行“裂变部分核心算法”，否则继续执行步骤D1和步骤 D2。

优选地，步骤B5的“裂变部分核心算法”包括如下步骤：

步骤E1：令挖掘到的K个质心点为Ci，i＝1、2、3……K,当前煤质为C，进行欧式平方误差和；

Cmin＝MIN(Dis(C,Ci))

其中，C.q为当前煤质的发热量成分值；C.S为当前煤质的含硫成分值；Ci.v 当前煤质的挥化分值；Ci.q为第i个质心点的热值成分值；Ci.S为第i个质心点的含硫成分值；Ci.v为第i个质心点的挥化分值；Cmin＝MIN(Dis(C,Ci))指K 个质心点中离当前C点距离最短的质心点；

步骤E2：找到与当前煤质C最佳的质心点Cmin后，再以Cmin点为中心，Cmin所在的聚类为数据源，运用“修正K-Means算法”，在这个聚类中找出最终的3个质心点，如果找到了SSE对应的三个质心点，将SSE对应的三个质心点，定义为Co1、Co2和Co3，这三个煤质数据将是本系统数据挖掘的最终结果；如果没有找到SSE对应的三个质心点则继续执行“修正K-Means算法”。

本发明煤质成分实时精准检测设备的大数据分析方法的有益效果如下：

1.由于测量部分每50ms产生一组数据，每天有超过20万条的数据量，这些数据量是巨大的，本发明增加数据分析方法，可以将大量产生的数据进行整理，使测量过程变的更简单。

附图说明

图1为本发明煤质成分实时精准检测设备的大数据分析方法的系统总框图。

图2为本发明煤质成分实时精准检测设备的大数据分析方法的煤质数值分析模型框图。

图3为本发明煤质成分实时精准检测设备的大数据分析方法的带记忆和裂变的修正K-Means算法的流程图。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，煤质成分实时精准检测设备的大数据分析方法,包括如下步骤：

如图2所示，步骤A1和A2的“煤质数值分析模型”为对煤质6大成分值的所有数据统一结构，同时按不同的特性算法，对所有数据按共性、差异和剩余三种类型进行分类、整理。

本实施方案在实施时，煤质成分实时精准检测设备产生的数据包含两组，一组为七个原始电伏信号数据，另一组为经“换算模型处理”后的7个原始电伏信号对应的煤质六大成分数据。这两组大数据都被存储在大数据库中的原始数据库，以便系统查询和使用。

这些数据结构不一致，不便于后期的挖掘和处理，为了解决这个问题，结合后期的人工智能处理特点，系统设置了“煤质数值分析模型”模块，这一模块的主要功能就是对煤质六大成分值的所有数据统一结构，同时按不同的特性算法，对所有数据按共性、差异和剩余三种类型进行分类、整理，如：特性算法一：按燃烧值5000大卡，上下误差不超过100大卡分类，以方便和加快后期数据的挖掘、处理。

煤质数值分析模型中定义了不同的特性算法，譬如：特性算法一为“煤质发热量为5000大卡，共性阈值上下浮动不超过100大卡，差异阈值上下浮动不小于500大卡”，如果当前的煤质6大成分值中的燃烧值为4200大卡，的特性算法集运算处理后，系统就会把当前的煤质6大成分值放入差异数据库 (4200<5000-500)中，反之亦然。上述的特性算法集可以修正、扩充，这样系统对不同、变化的煤种就可以不断调整，以达到最佳的整理、归类。

如图3所示，步骤A3和A4的大数据整理、存储、挖掘管理平台的算法为带记忆和裂变的修正K-Means算法。

带记忆和裂变的修正K-Means算法包括如下步骤：

步骤B3的“记忆部分核心算法”包括如下步骤：

步骤C2：令Zi＝Si。

步骤B3的“修正K-Means核心算法”包括如下步骤：

步骤B5的“裂变部分核心算法”包括如下步骤：

Cmin＝MIN(Dis(C,Ci))

步骤E2：找到与当前煤质C最佳的质心点Cmin后，再以Cmin点为中心， Cmin所在的聚类为数据源，运用“修正K-Means算法”，在这个聚类中找出最终的3个质心点，如果找到了SSE对应的三个质心点，如果没有找到SSE对应的三个质心点则继续执行“修正K-Means算法”，将SSE对应的三个质心点，定义为Co1、Co2和Co3，这三个煤质数据将是本系统数据挖掘的最终结果。

本实施方案在实施时，随着近年大数据技术的迅猛发展，异构数据的整合技术已经很成熟，基本模块化、通用化了，在此将重点阐述本系统的独创、新颖的大数据挖掘技术：带记忆和裂变的修正K-Means算法。

煤质成分的全工业分析是指包括煤的发热量(Q)、水分(M)、灰分(A)、挥发分(V)、固定碳(Fc)和含硫量(S)等6个分析项目指标的测定的总称。煤的全工业分析是了解煤质特性的主要指标，也是评价煤质的基本依据。不同的煤种有不同的上述6大成分指标特性，但同一煤种在上述6大成分指标上会表现得惊人的相似，这是我们区分煤种的重要特性指标，也是本系统采用“聚类”作为数据挖掘的重要依据。

通常煤的发热量、水分、灰分、挥发分和含硫量是直接测出的，而固定碳是用差减法计算出来的，因此固定碳(Fc)将不会作为本系统数据的主要特征；由于煤中灰分(A)、水分(M)随开采条件、储运条件和气象条件的变化而变化，同一种煤，在不同条件下，其成分的百分组成就不相同，若欲用其成分含量百分数说明煤的特性，必须同时指明煤是在什么状态下分析成分组成，才能正确判断各种成分的影响，基于其特性的稳定性较差，煤的灰分(A)、水分(M) 将不会作为数据分析的主要特征。综上所述，煤质的发热量(Q)、挥发分(V)和含硫量(S)将作为数据挖掘中数据的最终特性指标，因此被挖掘的数据将是三维立体的。

基于上述特性，本系统采用K-Means聚类算法作为大数据挖掘的基本算法有其科学性和合理性，但这一算法针对煤质的特性，存在几个待改进的地方：

1.每次都需要随机寻找K个质心点，当数据量大了后，搜寻速度将明显放慢；

2.有些时候找到的质心点并不是最好的点或数据点；

3.在以Q、V、S三个重要参数形成的三位立体空间中，Q的原始数值往往为几千大卡，而V和S的原始数值为百分比(x％)，如果用原始值作为坐标数值， V和S的坐标空间将会被钝化，无法有效反应其特性。结合对煤质特性和企业用煤的习惯的分析，我们发现：绝大多数企业在使用煤时，很长时间都会使用相对固定的煤种，基本上不会频繁更换煤种，因此我们对K-Means算法做了改良，这一改良就是：下一次搜寻质心点的开始点就是上一次找到的质心点，即 K-Means算法中第一个开始点是带记忆的，是上一次搜寻时找到的质心点，而不是漫无目的的随便开始，正是因为煤质的变化并不剧烈，当前的质心点往往就在上次搜寻找到的质心点周围，甚至就是上次的质心点，实践证明，通过确定每次搜寻起点为上次找到的质心点后，挖掘速度明显加快了，系统效率大大提高了，而搜寻结果也令人满意，在此我们把这一算法称为“带记忆的K-Means”算法，这也就有效的解决了前述问题；而“裂变”的基本思路就是当找到K个质心点后，再找出这K个点中煤质特性最接近(俗称距离最短)当前将要分析的数据的质心点，以这个质心点为中心，这个质心点所在的聚类为数据源，用修正K-Means算法找寻3个(固定)质心点，最终找到的这3个质心点将作为后续人工智能比对、分析的基础，这一原理可以简称为：优选优，目的是解决前述问题2，实测结果显示效果很好；对Q、V和S的数值不统一会造成的钝化问题，本系统将对V和S的值进行修正，以达到和Q值保持一致，从而体现Q、 V和S三个特性的同等重要性，具体算法将在后面讲到。这就是本系统称为：带记忆和裂变的修正K-Means算法的基本原理。

系统中煤质(Coal)六大成分值数据用字母C来代替，每一组数据除包含前述六大指标外，定义为Ci(Q、M、A、V、Fc、S)(i＝1、2、3….N)，基于上述分析的结果，在数据挖掘中，只涉及3个值，分别为Q、V和S，数据格式为Ci(Q、V、S)，Q、V和S特性对应三维空间的X、Y、Z轴，因此数据呈现三位立体状。同时K值为我国主要煤种的数量，据统计目前我国的煤种主要有褐煤、烟煤、无烟煤、半无烟煤等4种，系统初始化为K＝4，当然在本系统人工智能部分的煤种专家系统中，可自学习并扩充煤种数量，当煤种专家系统增加了煤种后，会自动调整K值，以自适应变化。

带记忆和裂变的修正K-Means算法的数据挖掘核心算法包含三部分：

1.记忆部分核心算法

系统自动存储上次数据挖掘时找到的K个质心点，定义为Zi(i＝1、2…K), 算法开始的初始化质心点，定义为Si(i＝1、2…K)，算法为：Si＝Zi。

2.修正K-Means核心算法

系统以欧式平方误差和(Sum of the Squared Error,SSE)作为聚类的基本目标函数，如下：

上述求和函数中n为数据库数据的数量，C为当前选定的临时质心，Ci为除C外的其它的数据，Ci.q为第i点煤质的发热量成分值；Ci.S为第i点煤质的含硫成分值；Ci.v第i点煤质的挥化分值。

如前所述，Q的原始数值往往为几千大卡，而V和S的原始数值为百分比(x％)，如果用原始值作为计算单位，V和S的坐标空间将会被钝化，无法有效反应其特性，基于此，我们对V和S值进行和Q值对等的量化调整，具体办法就是两个数值分别乘以10000，因此最终的目标算法函数为：

3.裂变部分核心算法

系统依然以欧式平方误差和(Sum of the Squared Error,SSE)作为基础函数，假设挖掘到的K个质心点为Ci(i＝1、2、3……K),当前煤质为C，具体算法如下。

a.首先找到特性值最接近当前煤质特性C的最佳点，算法为：

Cmin＝MIN(Dis(C,Ci))

上述函数中，C.q为当前煤质的发热量成分值；C.S为当前煤质的含硫成分值；Ci.v当前煤质的挥化分值；Ci.q为第i个质心点的热值成分值；Ci.S为第 i个质心点的含硫成分值；Ci.v为第i个质心点的挥化分值。Cmin＝MIN(Dis(C, Ci))指K个质心点中离当前C点距离最短的质心点。

b.找到与当前煤质C最佳的质心点Cmin后，再以Cmin点为中心，Cmin所在的聚类为数据源，运用修正K-Means算法，在这个聚类中找出最终的三个质心点(K＝3)，即“优选优”，定义为Co1、Co2和Co3，这三个煤质数据将是本系统数据挖掘的最终结果。

Claims

1.煤质成分实时精准检测设备的大数据分析方法,其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的煤质成分实时精准检测设备的大数据分析方法,其特征在于，所述步骤A1和A2的“煤质数值分析模型”为对煤质6大成分值的所有数据统一结构，同时按不同的特性算法，对所有数据按共性、差异和剩余三种类型进行分类、整理。

3.根据权利要求1所述的煤质成分实时精准检测设备的大数据分析方法,其特征在于，所述步骤A3和A4的大数据整理、存储、挖掘管理平台的算法为带记忆和裂变的修正K-Means算法。

4.根据权利要求3所述的煤质成分实时精准检测设备的大数据分析方法,其特征在于，所述带记忆和裂变的修正K-Means算法包括如下步骤：

步骤B1：将煤质的六大成分分别记为Ci(Q、M、A、V、Fc、S)，将Q、V、S三个特性值对应三维空间X、Y、Z轴；

5.根据权利要求4所述的煤质成分实时精准检测设备的大数据分析方法,其特征在于，所述步骤B3的“记忆部分核心算法”包括如下步骤：

步骤C1:煤质成分实时精准检测设备将自动存储上次数据挖掘时找到的K个质心点，定义为Zi，i＝1、2…K，算法初始化质心点，定义为Si，i＝1、2…K；

步骤C2：令Zi＝Si。

6.根据权利要求4所述的煤质成分实时精准检测设备的大数据分析方法,其特征在于，所述步骤B3的“修正K-Means核心算法”包括如下步骤：

步骤D1：对Ci(Q、V、S)里的V和S值分别乘以1000，以保持Q、V、S三位同步；

其中，其中，C为当前选定的临时质心，Cx为煤质的热量值，Cy为煤质的挥发值，Ci为除C外的其它的数据，Cx.q为在X轴的发热量成分值；Cy.q表示为在Y轴挥发量值,Cx.s为在X轴煤质的含硫成分值；Cy.s为在Y轴含硫量值，Cx.v在X轴挥化分值；Cy.v表示在Y轴挥发量值；

步骤D3：如果SSE已经收敛，则找到了K个质心点，输出SSE所对应的K个质心点，输出数据进行“裂变部分核心算法”，否则继续执行步骤D1和步骤D2。

7.根据权利要求4所述的煤质成分实时精准检测设备的大数据分析方法,其特征在于，所述步骤B5的“裂变部分核心算法”包括如下步骤：

Cmin＝MIN(Dis(C,Ci))

其中，C.q为当前煤质的发热量成分值；C.S为当前煤质的含硫成分值；Ci.v当前煤质的挥化分值；Ci.q为第i个质心点的热值成分值；Ci.S为第i个质心点的含硫成分值；Ci.v为第i个质心点的挥化分值；Cmin＝MIN(Dis(C,Ci))指K个质心点中离当前C点距离最短的质心点；