CN117235548B

CN117235548B - 基于激光灼烧的煤质数据处理方法及智能化系统

Info

Publication number: CN117235548B
Application number: CN202311514965.8A
Authority: CN
Inventors: 王利; 张辰; 朱泽建; 高中虎; 徐磊; 李志燕; 邵峰; 王秀东; 姚建新
Original assignee: SHANDONG JINING CANAL COAL MINE CO Ltd
Current assignee: SHANDONG JINING CANAL COAL MINE CO Ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-27
Anticipated expiration: 2043-11-15
Also published as: CN117235548A

Abstract

本发明涉及多维数据检测技术领域，具体涉及基于激光灼烧的煤质数据处理方法及智能化系统。本发明通过数据点在每个孤立树的异常分数，获得每个数据点在单维度数据与总维度数据之间的异常情况相似性；根据每种单维度数据中每个孤立树对应数据点的异常相似性，得到每个孤立树的维度影响度；根据每种单维度数据中孤立树的维度影响度和数据值获得树聚类簇，通过树聚类簇之间的分布情况和相似情况得到影响权重；根据影响权重得到总维度数据中每个数据点的异常指标，根据异常指标确定的异常数据点进行传输。本发明通过全面分析单维度数据对总维度数据的影响情况，使得到总维度数据中异常数据点的准确性更高，进行数据传输结果的可信度更高。

Description

基于激光灼烧的煤质数据处理方法及智能化系统

技术领域

本发明涉及多维数据检测技术领域，具体涉及基于激光灼烧的煤质数据处理方法及智能化系统。

背景技术

煤质采集数据快速处理场景中，相较于传统的有源的采制化系统及无源的采制化系统，基于激光灼烧技术的智能采制化系统具备同时测量煤质灰分、水分、热值数据的能力，节约布置成本的同时兼具检测准确性，而且可将煤质检测结果及时反馈到生产线实现智能化生产的动态调整，因此对于获取的煤质采集数据的异常数据检测是很有必要的，能对智能采制化系统的生产环节进行及时的调整处理。

在用孤立森林算法对获得的煤质采集数据进行处理时，为了使数据传输更便捷，传输的煤质采集数据是包含灰分、水分、挥发分等种类的多维度数据。对于多维度数据进行异常检测时，受到不同维度的影响，导致总维度空间中的异常数据检测效果不理想，没有考虑到不同单维度数据对总维度数据的异常影响不同，总维度数据中数据异常程度的被削弱效果不同，导致孤立森林识别异常数据的效果受到影响，总维度数据的异常数据检测结果准确性较差，数据传输结果的可靠性不强。

发明内容

为了解决现有技术中总维度数据的异常数据检测结果准确性较差，数据传输结果的可靠性不强的技术问题，本发明的目的在于提供一种基于激光灼烧的煤质数据处理方法及智能化系统，所采用的技术方案具体如下：

本发明提供了一种基于激光灼烧的煤质数据处理方法，所述方法包括：

获取煤质的总维度数据，总维度数据由预设数量种单维度数据构成；

结合孤立森林算法，在每个数据点对应单维度数据和总维度数据之间，根据数据点在每个孤立树中异常分数值的频次相似情况，获得每个数据点在每种单维度数据中的异常相似性；根据每种单维度数据中的每个孤立树中所有数据点的异常相似性，获得每种单维度数据中每个孤立树对应的维度影响度；

在每种单维度数据中，根据每个孤立树中所有数据点的数值和维度影响度对孤立树进行聚类，获得每种单维度数据中的树聚类簇；根据每种单维度数据中所有树聚类簇之间的分布情况和相似情况，获得每种单维度数据的影响权重；

根据总维度数据中每个数据点在每种单维度数据中的异常分数值以及每种单维度数据的影响权重，获得总维度数据中每个数据点的异常指标；根据所有数据点的异常指标确定总维度数据中的异常数据点，进行数据传输。

进一步地，所述异常相似性的获取方法包括：

依次将每种单维度数据作为参考维度数据，对于参考维度数据中任意一个数据点，结合孤立森林算法获得该数据点在参考维度数据对应每个孤立树中的异常分数值；统计该数据点在参考维度数据中每个异常分数值的出现频次，按照异常分数值从大到小的顺序将出现频次进行排序，获得该数据点在参考维度数据中的维度异常分数序列；

结合孤立森林算法获得该数据点在总维度数据对应每个孤立树中的异常分数值；统计该数据点在总维度数据中每个异常分数值的出现频次，按照异常分数值从大到小的顺序将出现频次进行排序，获得该数据点在总维度数据中的总异常分数序列；

结合动态时间规整算法，获得该数据点的维度异常分数序列中每个出现频次与总异常分数序列之间的相似性，获得维度异常分数序列中每个出现频次的匹配相似性；

计算该数据点的维度异常分数序列中所有出现频次的匹配相似性的累加值，获得该数据点在参考维度数据中的异常相似性。

进一步地，所述维度异常分数序列中每个出现频次的匹配相似性的获取方法包括：

通过动态时间规整算法获得维度异常分数序列与总维度异常分数序列之间的最短路径；

在最短路径中，对于维度异常分数序列中任意一个出现频次，将总维度异常分数序列中与该出现频次匹配的出现频次作为该出现频次的匹配组；将该出现频次与匹配组中每个出现频次之间距离的累加值，作为该出现频次的匹配相似性。

进一步地，所述维度影响度的获取方法包括：

对于任意一种单维度数据中的一个孤立树，计算该孤立树中所有数据点对应单维度数据中的异常相似性的平均值，对平均值进行负相关映射并归一化处理后，获得该孤立树的维度影响度。

进一步地，所述树聚类簇的获取方法包括：

对于任意一种单维度数据，计算该单维度数据中的每个孤立树中所有数据点对应数据值的平均值，作为该单维度数据中的每个孤立树的平均数据值；

以平均数据值作为横轴，以维度影响度作为纵轴，构建维度直角坐标系；将该单维度数据中每个孤立树映射到维度直角坐标系中；对维度直角坐标系中的孤立树进行聚类获得该单维度数据中的树聚类簇。

进一步地，所述影响权重的获取方法包括：

确定每个树聚类簇的中心点；

对于任意一种单维度数据，依次将该单维度数据中的树聚类簇作为目标聚类簇；

在目标聚类簇与每个其他树聚类簇之间，将中心点的数据均值之间的差异作为目标聚类簇的数据值差异度；将中心点的维度影响度之间的差异作为目标聚类簇的影响度差异度；将目标聚类簇与所有其他树聚类簇的数据值差异度的平均值，作为目标聚类簇的平均数据差异度；将目标聚类簇与所有其他树聚类簇的影响度差异度的平均值，作为目标聚类簇的平均影响差异度；

计算目标聚类簇的平均数据差异度与平均影响差异度的L2范数，获得目标聚类簇的差异度；将该单维度数据中所有树聚类簇的差异度的累加值作为该单维度数据的聚类差异性；

统计该单维度数据中所有树聚类簇的数量，获得该单维度数据的数量特征值；将该单维度数据的数量特征值和聚类差异性的乘积，进行负相关映射并归一化处理，获得该单维度数据的影响权重。

进一步地，所述异常指标的获取方法包括：

依次将每种单维度数据作为目标维度数据，在总维度数据中，结合孤立森林算法获取每个数据点在目标维度数据中的目标异常分数值；将目标维度数据的影响权重与目标异常分数值的乘积，作为每个数据点对应目标维度数据的调整分数值；将每个数据点在目标维度数据中的目标异常分数值与调整分数值的和值，作为每个数据点对应目标维度数据的调整分数值；

计算总维度数据中每个数据点在所有单维度数据中的调整分数值的平均值，获得总维度数据中每个数据点的异常指标。

进一步地，所述根据所有数据点的异常指标确定总维度数据中的异常数据，包括：

将总维度数据中数据点的异常指标大于预设异常阈值的数据点作为异常数据点；所述异常阈值为正数。

进一步地，所述对维度直角坐标系中的孤立树进行聚类获得该单维度数据中的树聚类簇，包括：

采用OPTICS聚类算法对维度直角坐标系中的孤立树进行聚类，获得树聚类簇。

本发明提供了一种基于激光灼烧的煤质数据处理智能化系统，包括存储器和处理器，处理器执行存储器存储的计算程序，以实现如上述一种基于激光灼烧的煤质数据处理方法。

本发明具有如下有益效果：

本发明通过对单维度数据中数据点在每个孤立树的异常情况，分析每个数据点在单维度数据与总维度数据之间的异常情况相似性，考虑到由于孤立森林算法中每个孤立树表征的划分方法不同，数据点在不同划分情况下的整体异常情况不同，根据每种单维度数据中每个孤立树对应数据点的异常相似性，得到每个孤立树的维度影响度，从每个孤立考虑与总维度数据中异常情况的相似性，使得每个孤立树的可信任程度增加，提高对维度之间影响程度的分析准确性。考虑到每种单维度数据中孤立树表征异常情况对总维度数据具有不同的影响程度，通过聚类综合反映每种单维度数据对总维度数据整体的影响程度，综合分析孤立树的维度影响度和数据值之间的相似情况获得树聚类簇，并通过树聚类簇之间的分布情况和相似情况得到更准确的影响权重。最终根据影响权重得到总维度数据中每个数据点的异常指标更准确，进而根据异常指标确定的异常数据点准确性更高，进行传输的数据结果可信度更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于激光灼烧的煤质数据处理方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于激光灼烧的煤质数据处理方法及智能化系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于激光灼烧的煤质数据处理方法及智能化系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于激光灼烧的煤质数据处理方法流程图，该方法包括以下步骤：

S1：获取煤质的总维度数据，总维度数据由预设数量种单维度数据构成。

煤质指的是煤炭的质量，煤炭质量是指煤炭的物理、化学特性及其适用性，因此煤质数据的采集种类主要有灰分、水分、硫分、发热量、挥发分以及块煤限率等等，每种数据代表一种维度数据，而由于数据在采集时具有固定的采集频率，因此所有维度数据可映射到多维空间中，通过多维数据进行数据传输，能够快速整合存储数据，便于数据的整体的分析处理。

在本发明实施例中，利用基于激光灼烧技术的智能采制化系统，实现对于煤质灰分、水分、热值数据等获取。主要是通过智能辅助子系统实现煤质采集的环境控制，包括温度、湿度等环境参数，使得煤质样本检测的环境基本维持恒定，并通过智能检测子系统实现对于采样获得的煤样的灰分、水分、热值数据等数据进行采集，其从皮带中部、溜槽、皮带端部等取样位置全断面取样，采样频率设置为12分钟每次，将煤样经过破碎、缩分、研磨、再缩分等几个环节后送入检测系统，并把剩余煤样回收到生产线，而检测过程则利用智能机器人、激光模块和高精度运算和计量出所需要的煤质灰分、水分、热值数据等数据。需要说明的是，煤质数据的采集为本领域技术人员熟知的技术手段，在此不做限制。

其中每种煤质数据均为单维度数据，为了便于数据快速处理传输，将所有的单维度数据表示在多维度空间中，获得煤质的总维度数据，将总维度数据中的异常数据筛选出来分开进行传输，便于后续数据分析。在本发明实施例中，总维度数据由预设数量种单维度数据构成，预设数量设置为5，具体数值实施者可根据具体实施情况进行调整，在此不做限制。需要说明的是，将多个单维度数据映射到多维度空间中的方法为本领域技术人员熟知的技术手段，例如向量化等在此不做赘述。

S2：结合孤立森林算法，在每个数据点对应单维度数据和总维度数据之间，根据数据点在每个孤立树中异常分数值的频次相似情况，获得每个数据点在每种单维度数据中的异常相似性；根据每种单维度数据中的每个孤立树中所有数据点的异常相似性，获得每种单维度数据中每个孤立树对应的维度影响度。

由于不同类型的数据存在微小的波动，使得最终通过总维度数据进行异常检测时，部分异常特征被削弱，无法准确识别，因此需要通过每个单维度对总维度的影响程度优化异常值的检测。在总维度数据进行异常检测时，采用孤立森林算法检测异常值，孤立森林算法对多维数据的处理效果好，且能够快速高效的进行异常值检测，适用于对总维度数据的异常分析，因此在结合孤立森林算法的基础上，对单维度与总维度之间的影响关系进一步分析。

首先，结合孤立森林算法，在每个数据点对应单维度数据和总维度数据之间，根据数据点在每个孤立树中异常分数值的频次相似情况，获得每个数据点在每种单维度数据中的异常相似性。在本发明实施例中，孤立森林算法首先需要训练获得预设树数量个孤立树，一个孤立树可以反映数据的一种划分方式，预设树数量为100，因此对每种单维度数据和总维度数据均通过孤立森林算法中对孤立树的训练过程，获得每种单维度数据和总维度数据中的孤立树，其中每种单维度数据通过孤立森林算法获得的孤立树，与总维度数据通过孤立森林算法获得的孤立树均不相同，需要说明的是，孤立森林算法训练孤立树的过程为本领域技术人员熟知的公知技术手段，在此不做赘述。

优选地，依次将每种单维度数据作为参考维度数据，对于参考维度数据中任意一个数据点，每个数据点对应为一个采样时刻获得的数据，对所有数据点的分析方法均一致，结合孤立森林算法获得该数据点在参考维度数据对应每个孤立树中的异常分数值，异常分数值可以反映该数据点在对应划分方式下的异常程度。在本发明实施例中，根据每个数据点在孤立树中的高度可获得数据点在单个孤立树中的异常分数值，获得异常分数值的方法基于孤立森林中异常得分的计算公式，其为本领域技术人员熟知的公知技术手段，因此在此不做赘述。

统计该数据点在参考维度数据中每个异常分数值的出现频次，按照异常分数值从大到小的顺序将出现频次进行排序，获得该数据点在参考维度数据中的维度异常分数序列，通过维度异常分数序列可以反映出该数据点在参考维度数据的异常情况特征。

结合孤立森林算法获得该数据点在总维度数据对应每个孤立树中的异常分数值，其获取方法与每种单维度中异常分数值的获取方法相同。统计该数据点在总维度数据中每个异常分数值的出现频次，按照异常分数值从大到小的顺序将出现频次进行排序，获得该数据点在总维度数据中的总异常分数序列，通过总异常分数序列反映该数据点在总维度数据的异常情况特征，进一步可以分析异常情况特征之间的相似性，表征在该数据点的位置处总维度数据受到参考维度数据的影响程度。

结合动态时间规整算法可以计算序列之间的相似性，为了更准确的分析参考维度数据对总维度数据的影响情况，获得该数据点的维度异常分数序列中每个出现频次与总异常分数序列之间的相似性，获得维度异常分数序列中每个出现频次的匹配相似性。优选地，通过动态时间规整算法获得维度异常分数序列与总维度异常分数序列之间的最短路径，最短路径可以反映维度异常分数序列与总维度异常分数序列之间出现频次的匹配对齐关系，便于相似性的计算。

基于单维度数据分析，在最短路径中，对于维度异常分数序列中任意一个出现频次，将总维度异常分数序列中与该出现频次匹配的出现频次作为该出现频次的匹配组，匹配组中的出现频次为总维度异常序列中的出现频次，通过最短路径可以将维度异常分数序列中该出现频次对应匹配的总维度异常序列中的出现频次筛选出来，将该出现频次与匹配组中每个出现频次之间的距离的累加值，作为该出现频次的匹配相似性。在本发明实施例中，构建频次坐标系，频次坐标系中横坐标为序列排列顺序，纵坐标为出现频次的数值，将维度异常分数序列与总异常分数序列映射到频次坐标系中，通过两个点之间的欧式距离计算距离，最终通过该出现频次与匹配组中每个出现频次之间的距离的累加值，获得匹配相似性。需要说明的是，欧式距离的计算、最短路径和匹配组的获取方法均为动态时间规整算法的运用，是本领域技术人员熟知的公知技术手段，在此不做赘述。

计算该数据点的维度异常分数序列中所有出现频次的匹配相似性的累加值，获得该数据点在参考维度数据中的异常相似性。在不考虑划分方式影响的情况下，异常相似性反映该数据点位置处，参考维度数据与总维度数据之间的异常情况相似程度，当反映的异常情况越相似，说明在该数据点位置处，总维度数据受到参考维度数据影响明显，被干扰的程度较小。

进一步地，根据每种单维度数据中的每个孤立树中所有数据点的异常相似性，获得每种单维度数据中每个孤立树对应的维度影响度。由于每个数据点基于多个孤立树的异常情况分别进行分析，但在孤立树构建时，深度是一定的，故每个孤立树中并不能包含所有的数据点，而每个孤立树能表征一种特征划分过程，因此孤立树是不同的，也意味着在每种划分程度下数据点对应的整体异常情况并不相同。因此从每个孤立树分析，即为从每种划分方式分析，基于每种单维度数据中的一个孤立树，分析该孤立树与总维度数据中孤立数据之间的相似性。

优选地，对于任意一种单维度数据中的一个孤立树，计算该孤立树中所有数据点对应单维度数据中的异常相似性的平均值，对平均值进行负相关映射并归一化处理后，获得该孤立树的维度影响度。通过维度影响度表征在对应划分方式下，数据异常情况的相似程度，在本发明实施例中，维度影响度的具体表达式为：

式中，表示为第/>种单维度数据中第/>个孤立树的维度影响度，/>表示为第/>个孤立树的数据点总数量，/>表示为第/>个数据点对应维度异常分数序列中出现频次的总数量，/>表示为第/>个数据点对应维度异常分数序列中第/>个出现频次的匹配相似性，表示为以自然常数为底的指数函数。

其中，表示为第/>个数据点异常相似性，/>表示为通过以自然常数为底的指数函数进行负相关映射并归一化，本发明实施例主要通过单维度对总维度的影响程度进行异常检测的优化，因此通过每个孤立树的维度影响度，可以反映在该划分情况下总维度数据受对应单维度数据的影响情况。

S3：在每种单维度数据中，根据每个孤立树中所有数据点的数值和维度影响度对孤立树进行聚类，获得每种单维度数据中的树聚类簇；根据每种单维度数据中所有树聚类簇之间的分布情况和相似情况，获得每种单维度数据的影响权重。

进一步，可以对单维度数据中所有划分情况进行分析，通过整体异常情况的相似性获得影响权重，在本发明实施例结合每个孤立树的维度影响度，以及数据点的数据值特征综合分析整体差异程度。因此在每种单维度数据中，根据每个孤立树中所有数据点的数值和维度影响度对孤立树进行聚类，获得每种单维度数据中的树聚类簇。

优选地，对于任意一种单维度数据，计算该单维度数据中的每个孤立树中所有数据点对应数据值的平均值，作为该单维度数据中的每个孤立树的平均数据值，通过平均数据值反映每个孤立树在对应划分下的数据点数据值划分情况。进一步地，以平均数据值作为横轴，以维度影响度作为纵轴，构建维度直角坐标系，通过指标坐标系可以反映每个孤立树的数值和维度影响度的状态，将该单维度数据中每个孤立树映射到维度直角坐标系中，在本发明实施例中，采用OPTICS聚类算法对维度直角坐标系中的孤立树进行聚类获得该单维度数据中的树聚类簇，通过树聚类簇反映在单维度数据中，数据点差异性之间的相关程度。需要说明的是，OPTICS聚类算法为本领域技术人员熟知的技术手段，在此不做赘述，在本发明其他实施例中，还可以选用其他基于密度的聚类算法，在此不做限制。

当树聚类簇之间的聚集性越强，说明单维度数据与总维度数据之间相关性越强，数据点的异常特征影响较为明显，单维度数据对总维度数据的影响应该越明显，当树聚类簇的数量越少，说明单维度数据与总维度数据之间相关性的可信度越强，不会被数据点的多种异常特征影响，单维度数据对总维度数据的影响程度越高，因此根据每种单维度数据中所有树聚类簇之间的分布情况和相似情况，获得每种单维度数据的影响权重。

优选地，确定每个树聚类簇的中心点，通过中心点表征每个树聚类簇的特征，需要说明的是，聚类簇中心点的获取为本领域技术人员熟知的技术手段，在此不做赘述。对于任意一种单维度数据，依次将该单维度数据中的树聚类簇作为目标聚类簇，在目标聚类簇与每个其他树聚类簇之间，将中心点的数据均值之间的差异作为目标聚类簇的数据值差异度，将中心点的维度影响度之间的差异作为目标聚类簇的影响度差异度，通过数据值差异度和影响度差异度分别反映目标聚类簇与每个其他树聚类簇之间在数据值和维度影响度上的差异性。

将目标聚类簇与所有其他树聚类簇的数据值差异度的平均值，作为目标聚类簇的平均数据差异度，将目标聚类簇与所有其他树聚类簇的影响度差异度的平均值，作为目标聚类簇的平均影响差异度，综合目标聚类簇与目标聚类簇外所有其他树聚类簇之间的差异性，计算目标聚类簇的平均数据差异度与平均影响差异度的L2范数，获得目标聚类簇的差异度，通过差异度反映目标聚类簇与其他树聚类簇之间的整体差异情况。需要说明的是，L2范数为本领域技术人员熟知的技术手段，在此不做赘述。

将该单维度数据中所有树聚类簇的差异度的累加值作为该单维度数据的聚类差异性，通过所有树聚类簇之间的聚类差异性，反映在单维度数据中树聚类簇的聚集程度。进一步地统计该单维度数据中所有树聚类簇的数量，获得该单维度数据的数量特征值，通过数量特征值反映在单维度数据中数聚类簇的数量多少情况。

将该单维度数据的数量特征值和聚类差异性的乘积，进行负相关映射并归一化处理，获得该单维度数据的影响权重，影响权重即为总维度数据中该单维度数据的影响程度。在本发明实施例中，影响权重的具体表达式为：

式中，表示为第/>种单维度数据的影响权重，/>表示为第/>种单维度数据中的聚类簇总数量，也即第/>种单维度数据的数量特征值。/>表示为除第/>个树聚类簇外其他树聚类簇的总数量，/>表示为第/>个树聚类簇与第/>个聚类簇之间中心点的数据值差异度，/>表示为第/>个树聚类簇与第/>个聚类簇之间中心点的影响度差异度，表示为归一化函数，需要说明的是，归一化为本领域技术人员熟知的技术手段，归一化函数的选择可以为线性归一化或标准归一化等，具体的归一化方法在此不做限定。

其中，表示为第/>个树聚类簇的平均数据差异度，表示为第/>个树聚类簇的平均影响差异度，表示为第/>个树聚类簇的差异度，表示为第/>种单维度数据的聚类差异性。数量特征值和聚类差异性均与影响权重呈负相关关系，当数量特征值越小，即聚类簇数量越少，当聚类差异性越小，说明聚类簇之间相似性越高，聚类簇越聚集，该单维度数据对总维度数据之间的关联性越高，影响程度越大。

至此，完成每种单维度数据对总维度数据影响程度的分析，获得每种单维度数据的影响权重。

S4：根据总维度数据中每个数据点在每种单维度数据中的异常分数值以及每种单维度数据的影响权重，获得总维度数据中每个数据点的异常指标；根据所有数据点的异常指标确定总维度数据中的异常数据点，进行数据传输。

在总维度数据中，综合所有单维度数据的影响情况，得到每个数据点在总维度数据中更准确的异常分数情况，根据总维度数据中每个数据点在每种单维度数据中的异常分数值以及每种单维度数据的影响权重，获得总维度数据中每个数据点的异常指标。

优选地，依次将每种单维度数据作为目标维度数据，在总维度数据中，结合孤立森林算法获取每个数据点在目标维度数据中的目标异常分数值，此时的异常分数值的获取为数据点在目标维度数据中所有孤立树中计算得到的，异常分数值的获取方法为孤立森林算法中的公知技术手段，在此不做赘述。将目标维度数据的影响权重与目标异常分数值的乘积，作为每个数据点对应目标维度数据的调整分数值，此为根据目标维度数据对总维度数据的影响程度对原异常分数值的调整情况。因此进一步将每个数据点在目标维度数据中的目标异常分数值与调整分数值的和值，作为每个数据点对应目标维度数据的调整分数值，调整分数值反映数据点在目标维度数据影响下的异常分数情况。

计算总维度数据中每个数据点在所有单维度数据中的调整分数值的平均值，获得总维度数据中每个数据点的异常指标，综合所有单维度数据的影响程度，得到数据点位置处更准确的异常情况。异常指标反映异常情况。在本发明实施例中，异常指标的具体表达式为：

式中，表示为第/>个数据点的异常指标，/>表示为单维度数据的总数量，/>表示为第/>种单维度数据的影响权重，/>第/>个数据点在第/>种单维度数据中目标异常分数值。

由于异常指标根据异常分数值调整获得，因此当异常指标越大，说明该数据点越可能为异常数据点，根据所有数据点的异常指标确定总维度数据中的异常数据点。在本发明实施例中，将总维度数据中数据点的异常指标大于预设异常阈值的数据点作为异常数据点，异常阈值为正数，在本发明实施例中设置为0.7，实施者可根据具体实施情况进行调整。

最终，总维度数据中的数据点可分为异常数据点和非异常数据点，通过异常数据点可直接进行分析进行后续相关生产环节的调整，因此在本发明实施例中，将异常数据点和非异常数据点进行数据传输，完成煤质采集数据的智能化处理，传输至压缩程序中，可继续后续煤质采集数据压缩存储处理和对煤质采集生产评估等操作。

综上，本发明通过对单维度数据中数据点在每个孤立树的异常情况，分析每个数据点在单维度数据与总维度数据之间的异常情况相似性，考虑到由于孤立森林算法中每个孤立树表征的划分方法不同，数据点在不同划分情况下的整体异常情况不同，根据每种单维度数据中每个孤立树对应数据点的异常相似性，得到每个孤立树的维度影响度，从每个孤立考虑与总维度数据中异常情况的相似性，使得每个孤立树的可信任程度增加，提高对维度之间影响程度的分析的准确性。考虑到每种单维度数据中孤立树表征异常情况对总维度数据具有不同的影响程度，通过聚类综合反映每种单维度数据对总维度数据整体的影响程度，综合孤立树的维度影响度和数据值之间的情况获得树聚类簇，并通过树聚类簇之间的分布情况和相似情况得到更准确的影响权重。最终根据影响权重得到总维度数据中每个数据点的异常指标更准确，进而根据异常指标确定的异常数据点准确性更优，进行传输的数据可信度更高。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种基于激光灼烧的煤质数据处理方法，其特征在于，所述方法包括：

获取煤质的总维度数据，总维度数据由预设数量种单维度数据构成；煤质数据的采集种类包括灰分、水分、硫分、发热量、挥发分以及块煤限率，每种数据代表一种维度数据；

根据总维度数据中每个数据点在每种单维度数据中的异常分数值以及每种单维度数据的影响权重，获得总维度数据中每个数据点的异常指标；根据所有数据点的异常指标确定总维度数据中的异常数据点，进行数据传输；

所述异常相似性的获取方法包括：

对每种单维度数据和总维度数据均通过孤立森林算法中对孤立树的训练过程，获得每种单维度数据和总维度数据中的孤立树，其中每种单维度数据通过孤立森林算法获得的孤立树，与总维度数据通过孤立森林算法获得的孤立树均不相同；

计算该数据点的维度异常分数序列中所有出现频次的匹配相似性的累加值，获得该数据点在参考维度数据中的异常相似性；

所述维度异常分数序列中每个出现频次的匹配相似性的获取方法包括：

在最短路径中，对于维度异常分数序列中任意一个出现频次，将总维度异常分数序列中与该出现频次匹配的出现频次作为该出现频次的匹配组；将该出现频次与匹配组中每个出现频次之间距离的累加值，作为该出现频次的匹配相似性；

所述维度影响度的获取方法包括：

对于任意一种单维度数据中的一个孤立树，计算该孤立树中所有数据点对应单维度数据中的异常相似性的平均值，对平均值进行负相关映射并归一化处理后，获得该孤立树的维度影响度；

所述影响权重的获取方法包括：

确定每个树聚类簇的中心点；

2.根据权利要求1所述一种基于激光灼烧的煤质数据处理方法，其特征在于，所述树聚类簇的获取方法包括：

3.根据权利要求1所述一种基于激光灼烧的煤质数据处理方法，其特征在于，所述异常指标的获取方法包括：

4.根据权利要求1所述一种基于激光灼烧的煤质数据处理方法，其特征在于，所述根据所有数据点的异常指标确定总维度数据中的异常数据，包括：

5.根据权利要求2所述一种基于激光灼烧的煤质数据处理方法，其特征在于，所述对维度直角坐标系中的孤立树进行聚类获得该单维度数据中的树聚类簇，包括：

6.一种基于激光灼烧的煤质数据处理智能化系统，包括存储器和处理器，其特征在于，所述处理器执行所述存储器存储的计算程序，以实现如权利要求1-5任一项所述一种基于激光灼烧的煤质数据处理方法。