CN117520965A

CN117520965A - 基于人工智能的工矿作业数据分类方法

Info

Publication number: CN117520965A
Application number: CN202410011206.8A
Authority: CN
Inventors: 程训龙; 林云志; 张继伟; 费满良
Original assignee: Huayang Communication Technology Co ltd
Current assignee: Huayang Communication Technology Co ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-02-06
Anticipated expiration: 2044-01-04
Also published as: CN117520965B

Abstract

本发明涉及数据处理技术领域，具体涉及基于人工智能的工矿作业数据分类方法，包括：采集工况作业中的生产数据获得待分类数据；根据待分类数据中每个属性的共生关系获得每个特征维度的优选系数；根据待分类数据构建随机森林模型获得样本维度集合中特征维度的优选程度；根据样本维度集合中特征维度的属性分布获得属性削弱系数；根据优选程度和属性削弱系数获得每个特征维度的信息增益率，选取信息增益率最大的特征维度作为划分节点，用于对待分类数据分类获得每个样本维度的类别。本发明旨在解决随机森林算法对于难以分类的数据的分类效果较差，通过结合不同样本维度之间的关系提高随机森林的分类准确率的目的。

Description

基于人工智能的工矿作业数据分类方法

技术领域

本发明涉及数据处理技术领域，具体涉及基于人工智能的工矿作业数据分类方法。

背景技术

在工矿作业过程中，数据的高效管理和准确分类是确保生产安全和提高生产效率的关键因素，通过采集和分析工矿作业数据，可以实现对各个环节的监控和优化，从而在复杂多变的工业环境中提供精准的决策支持。

通过监测工业采矿过程中的作业数据，主要包括作业温度、压力、震动等传感器数据，设备运行的状态、时间、负载数据，能源消耗数据、生产量数据等，将每次采集的数据记为一个样本，通过随机森林算法获得每个样本的生产状态类别，从而针对不同生产状态的工矿作业数据使用大数据自适应的分析，进而实现工业的决策支持，但在随机森林构建决策树的过程中部分样本的属性在其他样本中搭配混乱使得这些样本难以被区分类别，影响随机森林分类准确率的问题。

发明内容

本发明提供基于人工智能的工矿作业数据分类方法，以解决现有的部分样本的属性在其他样本中搭配混乱使得这些样本难以被区分类别，影响随机森林分类准确率的问题。

本发明的基于人工智能的工矿作业数据分类方法采用如下技术方案：

本发明一个实施例提供了基于人工智能的工矿作业数据分类方法，该方法包括以下步骤：

采集工矿作业中所有生产项目的生产数据获得特征维度和样本维度，根据特征维度和样本维度获得工矿作业的待分类数据；

根据待分类数据中每个样本维度中特征维度的属性在待分类数据中与其他属性的共生关系，获得每个样本维度中特征维度的每个属性下共生属性的第一共生参数；根据每个样本维度中特征维度的每个属性下共生属性的第一共生参数，获得每个样本维度中每个特征维度的优选系数；根据待分类数据构建随机森林模型，获得随机森林模型的每个决策树的样本维度集合；根据每个决策树的样本维度集合中每个样本维度的属性分布，获得每个决策树中每个特征维度的属性削弱系数；根据每个决策树的样本维度集合中每个特征维度的优选系数获得每个决策树的样本维度集合中每个特征维度的优选程度；根据每个决策树的样本维度集合中每个特征维度的优选程度和属性削弱系数，获得每个决策树的样本维度集合中每个特征维度的信息度量；根据每个决策树的样本维度集合中每个特征维度的信息度量获得每个决策树的样本维度集合中每个特征维度的信息度量的信息增益率；将每个决策树的样本维度集合中信息增益率最大的特征维度记为每个决策树的划分节点；

根据每个决策树的划分节点进行分类，将分类的结果投票获得每个样本维度的类别。

进一步的，所述获得每个样本维度中特征维度的每个属性下共生属性的第一共生参数包括：

将待分类数据中任意一个样本维度记为第个样本维度，将在第/>个样本维度中当第/>个特征维度的第/>个属性出现时，除第/>个特征维度的属性外其他特征维度的属性记为第/>个属性的共生属性，第/>个样本维度中第/>个特征维度的第/>个属性下第/>个共生属性出现的次数，将所述第/>个共生属性出现的次数与第/>个样本维度中第/>个特征维度的第/>个属性出现的次数的比值记为第/>个特征维度的第/>个属性下第/>个共生属性的第一共生参数。

进一步的，所述获得每个样本维度中每个特征维度的优选系数包括：

将待分类数据中任意一个样本维度记为第个样本维度，将第/>个样本维度中第/>个特征维度的第/>个属性下第/>个共生属性的第一共生参数记为/>；将第/>个样本维度中第/>个特征维度的属性个数记为/>，将第/>个样本维度的第/>个特征维度的第/>个属性的共生属性的个数记为/>，将第/>个样本维度中第/>个特征维度的第/>个属性的出现次数记为/>；

待分类数据中第个样本维度中第/>个特征维度的优选系数/>的计算方式为：

其中，为除第/>个样本维度外所有样本维度的分析矩阵中第/>个特征维度的第/>个属性下第/>个共生属性的第一共生参数均值；

表示以自然常数为底的指数函数，/>表示取绝对值函数，表示/>函数。

进一步的，获取分析矩阵的具体方式包括：

所有第一共生参数构成的序列记为在第个样本维度中第/>个特征维度的第/>个属性的分析序列，将在第/>个样本维度中第/>个特征维度的一个属性的分析序列作为一个维度，所有维度的所有属性的分析序列构成一个二维矩阵，矩阵的横轴为每个其他特征维度的属性，纵轴为第/>个特征维度的属性，每个样本维度的二维矩阵构成的多维矩阵记为第/>个特征维度的分析矩阵。

进一步的，所述获得每个决策树中每个特征维度的属性削弱系数包括：

将随机森林模型中任意一个决策树记为决策树，在决策树/>中第/>个特征维度的属性削弱系数/>的计算方式为：

其中，为待分类数据中第/>个特征维度的属性个数，/>为在决策树/>中第/>个特征维度的信息熵，/>为待分类数据中第/>个特征维度的信息熵，/>表示以自然常数为底的指数函数，/>表示取绝对值函数。

进一步的，所述获得每个决策树的样本维度集合中每个特征维度的优选程度包括：

将随机森林模型中任意一个决策树记为决策树，将决策树/>的样本维度集合中第/>个样本维度中第/>个特征维度的优选系数记为/>，决策树/>中第/>个特征维度的优选程度/>的计算方式为：

其中，为决策树/>的决策树的组成数量。

进一步的，所述获得每个决策树的样本维度集合中每个特征维度的信息度量包括：

决策树中第/>个特征维度的信息度量/>的计算方式为：

其中为决策树/>中第/>个特征维度的信息度量，/>为决策树/>中第/>个特征维度的优选程度，/>为决策树/>中第/>个属性削弱系数，/>表示以自然常数为底的指数函数。

进一步的，所述获得每个决策树的样本维度集合中每个特征维度的信息度量的信息增益率包括：

决策树中第/>个特征维度的信息增益率/>的计算方式为：

其中，为决策树/>中第/>个特征维度的信息增益，/>为决策树/>中第/>个特征维度的信息度量。

进一步的，所述信息增益的获取方式包括：

计算每个决策树中第/>个特征维度的属性信息熵和类别信息熵，将第/>个特征维度的属性信息熵和类别信息熵的差值记为第/>个特征维度的信息增益。

进一步的，所述根据每个决策树的划分节点进行分类，将分类的结果投票获得每个样本维度的类别包括：

根据决策树的划分节点对决策树中的样本维度集合进行分类，获得每个样本维度的分类结果，获得所有待分类数据中所有决策树的分类结果，统计所有决策树的分类结果中每个样本维度在不同类别的次数，通过投票的方式将每个样本维度在不同类别的次数中最大次数的类别作为每个样本维度的类别。

本发明的技术方案的有益效果是：本发明通过采集工矿作业中每个生产项目所产生的数据构成待分类数据，根据待分类数据整体的样本维度和特征维度之间的共生关系，获得每个样本维度的特征维度的优选系数，从而实现将存在固定共生关系的特征维度提取出来，在根据特征维度进行分类时，存在共生关系的特征维度能提供更高效果的分类参考，在决策树决策时这些特征维度更有可能被选择为划分节点；进而通过随机选取样本维度集合构建决策树，分析在决策树中每个特征维度的属性分布，获得每个特征维度的属性削弱系数，避免了本身属性混乱的特征维度作为划分节点时造成决策树出现过拟合问题；并根据样本维度集合中每个样本维度中每个特征维度的优选系数获得优选程度，根据优选程度作为增益项、属性削弱系数作为惩罚项对每个特征维度的增益效果进行加权，获得每个特征维度的信息增益率进而用于选取划分节点分类，达到在选取划分节点时避免过拟合问题，并且考虑到难以分类的样本维度中特征维度的关系作为这些样本维度的特征维度的增益项，使得选取的划分节点能更好的达到精准分类的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于人工智能的工矿作业数据分类方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于人工智能的工矿作业数据分类方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于人工智能的工矿作业数据分类方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于人工智能的工矿作业数据分类方法的步骤流程图，该方法包括以下步骤：

S001、采集工矿作业中所有生产项目的生产数据，获得工矿作业的待分类数据。

本实施例的目的是对工矿作业数据根据生产状态进行分类，将分类的结果用于大数据分析从而为工业采矿提供精准的决策支持，因此首先需要采集获得工矿作业数据；具体的，获取工矿作业中的所有存在监测需求的设备和环节，将每个存在监测需求的设备和环节记为一个生产项目，采集工矿作业中所有生产项目的生产数据，采集频次为每个生产项目的标准取样频次，采样的时间范围为距离当前采集时刻最近的30天；由于采集到的生产项目的生产数据格式不同，本实施例将采集到的所有生产数据中离散型数据和连续性数据进行缺失值处理和特征衍生，并将连续变量离散化后进行归一化处理获得每种生产项目的生产数据序列，进而将所有生产项目的监测频次标准化为1分钟/次，使用双线性插值算法以标准化监测频次对所采集到的生产数据序列进行插值，插值的结果为每次采样的标准化生产数据。

进一步的，将每个生产项目记为一个特征维度，每次采样的所有特征维度的标准化生产数据构成一个样本维度，所有样本维度和特征维度构成了待分类数据。

至此，获取到了工矿作业的待分类数据。

S002、根据每个特征维度的属性在当前样本维度中与其他特征维度的属性的存在的共生关系获得每个特征维度的分析矩阵，根据每个特征维度的分析矩阵中样本维度的差异，获得每个样本维度中每个特征维度的优选系数。

需要说明的是，随机森林算法对数据进行分类的过程中主要依靠的是根据决策树的决策结果进行投票，将属于众数的结果作为分类的结果，那么在所有样本维度中，每个样本维度中特征维度的属性与其他特征维度的属性存在的共生关系越稳定，所述共生关系表示一个特征维度的属性在出现时其他特征维度为固定的共生属性，那么当选取该样本维度的特征维度作为划分节点时，与之存在共生关系的其他样本维度在决策树中存在的越多，则说明该特征维度越可能是当前决策树中的划分节点，能使得决策树的结果更加准确。

进一步需要说明的是，特征维度的属性之间的共生关系存在于多个不同的样本维度中，因此本实施例根据每个样本维度中每个特征维度的属性与其他特征维度的属性出现的次数获得每个样本维度中每个特征维度的属性的分析矩阵，根据不同样本维度中相同特征维度的属性的分析矩阵的共生关系差异获得每个样本维度中每个特征维度的优选系数。

具体的，本实施例以第个样本维度中第/>个特征维度的第/>个属性为例，将在第/>个样本维度中当第/>个特征维度的第/>个属性出现时，除第/>个特征维度的属性外其他特征维度的属性记为第/>个属性的共生属性，第/>个样本维度中第/>个特征维度的第/>个属性下第/>个共生属性出现的次数，将所述第/>个共生属性出现的次数与第/>个样本维度中第/>个特征维度的第/>个属性出现的次数的比值记为第/>个特征维度的第/>个属性下第/>个共生属性的第一共生参数，所有第一共生参数构成的序列记为在第/>个样本维度中第/>个特征维度的第/>个属性的分析序列，将在第/>个样本维度中第/>个特征维度的一个属性的分析序列作为一个维度，所有维度的所有属性的分析序列构成一个二维矩阵，矩阵的横轴为每个其他特征维度的属性，纵轴为第/>个特征维度的属性，每个样本维度的二维矩阵构成的多维矩阵记为第/>个特征维度的分析矩阵。

进一步的，若第个特征维度与其他维度是存在共生关系的，那么第/>个特征维度的分析矩阵在不同样本维度中的每个属性的第一共生参数都是相似的，因此本实施例根据在不同样本维度下第/>个特征维度的分析矩阵差异，获得待分类数据中第/>个样本维度中第个特征维度的优选系数的计算方式为：

其中，为第/>个样本维度中第/>个特征维度的优选系数，/>为第/>个样本维度中第/>个特征维度的第/>个属性的出现次数；/>为第/>个样本维度中第/>个特征维度的第/>个属性下第/>个共生属性的第一共生参数，/>为除第/>个样本维度外所有样本维度的分析矩阵中第/>个特征维度的第/>个属性下第/>个共生属性的第一共生参数均值；/>为第/>个样本维度中第/>个特征维度的属性个数，/>为第/>个样本维度的第/>个特征维度的第/>个属性的共生属性的个数；/>表示以自然常数为底的指数函数，表示/>函数，/>表示取绝对值函数。

第个样本维度中第/>个特征维度的第/>个属性的出现次数越多，说明第/>个属性的在第/>个样本维度中第/>个特征维度的所有属性中的占比越大，在构建决策树时随机选取的所有样本维度中第/>个特征维度的第/>个属性出现的次数较多，则优选系数越大；表示第/>个属性下第/>个共生属性的第一共生参数在多个样本维度中的差异，差异越小说明第/>个样本维度中第/>个特征维度的第/>个属性与第个共生属性的共生关系越稳定，因此在构建决策树后第/>个属性与第/>个共生属性的决策效果近似，则优选系数越大。

同理，获取每个样本维度中每个特征维度的属性与共生属性的第一共生参数，获得每个样本维度中每个特征维度的分析矩阵，进而获得每个样本维度中每个特征维度的优选系数。

至此，获取到了每个样本维度中每个特征维度的优选系数。

S003、使用待分类数据构建随机森林模型，根据每个特征维度的属性分布获得每个特征维度的属性削弱系数。

需要说明的是，随机森林模型通过设置模型的参数用于构建随机森林模型，包括树的高度、叶子节点等，并通过随机选取一定数量的样本维度数据构建决策树进行分类，但由于每个样本都存在相同维度数量的若干个特征维度，因此在每次决策的过程中需要获得每个特征维度的信息增益率作为划分节点，具体包括计算父节点的特征维度的信息熵记为类别信息熵，计算子节点的特征维度的信息熵记为属性信息熵，根据类别信息熵与属性信息熵的差异获得每次决策的每个特征维度的信息增益率，选取信息增益率最大的特征维度作为划分节点并迭代计算信息增益率，进而获得每棵决策树决策的结果，最后通过投票的方式获取决策结果中的众数特征作为每个样本的分类结果。

进一步需要说明的是，随机森林算法的分类结果受到不同决策树之间的相关性和单棵树的决策能力影响，而在计算每个特征维度的信息增益时，由于随机选取可能存在偶然性，若选取的样本维度集合中一个特征维度的属性占据较大部分，所述属性为特征维度的类别，使得单棵树的决策结果存在一定可能是过拟合的，当待分类数据中一个特征维度的每个属性占比相似时，选取出的样本维度集合中该特征维度中一个属性计算获得的类别信息熵和属性信息熵相较于该特征维度的整体属性的信息熵差异较大，使得存在过拟合的现象，因此在选取特征维度作为划分节点时，需要将属性占比相似的特征维度的信息增益削弱，降低所述特征维度选取为划分节点的概率。

具体的，本实施例所构建的随机森林模型的具体参数包括决策树的组成数量为300、决策树最大深度为15、节点划分的最小样本数量4、叶子节点的最小样本数量为2、单棵决策树允许的最大特征数量为7，使用随机森林模型在待分类数据中随机选取决策树的组成数量个样本维度作为样本维度集合，使用样本维度集合构成一个决策树。

在决策树中第/>个特征维度的属性削弱系数的计算方式为：

其中，为在决策树/>中第/>个特征维度的属性削弱系数，/>为待分类数据中第/>个特征维度的属性个数，/>为在决策树/>中第/>个特征维度的信息熵，/>为待分类数据中第/>个特征维度的信息熵，/>表示以自然常数为底的指数函数，/>表示取绝对值函数。待分类数据中第/>个特征维度的属性个数/>越多，说明第/>个特征维度的属性越混乱，在分类时可能造成选取的样本属于难以区分类别的样本而无法获得准确的分类结果，则属性削弱系数越大；/>取值越小，说明第/>个特征维度的属性占比越相似，越可能导致决策树/>存在过拟合，则属性削弱系数越大；/>表示决策树/>中第/>个特征维度的属性与待分类数据中第/>个特征维度的属性差异，取值越大说明差异越大，则决策树所选取的样本在第/>个特征维度表现为极端情况，因此第/>个特征维度越不需要选取作为划分节点，则属性削弱系数越大。

同理，根据每个特征维度数据在待分类数据和决策树中的差异获得在决策树中每个特征维度的属性削弱系数。

S004、根据每个决策树所选取的样本维度中每个特征维度的优选系数获得每个决策树中每个特征维度的优选程度，根据每个决策树中每个特征维度的优选程度和属性削弱系数获得每个决策树中每个特征维度的信息度量。

需要说明的是，随机选取获得的样本维度仅代表待分类数据中的部分样本维度，因此本实施例根据随机选取的样本维度集合构建决策树，则决策树/>中每个特征维度的优选系数与样本维度集合中每个特征维度的优选系数有关，因此本实施例通过决策树/>的样本维度集合中每个样本维度的特征维度优选系数获得决策树/>中每个特征维度的优选程度。

具体的，决策树中第/>个特征维度的优选程度的计算方式为：

其中，为决策树/>中第/>个特征维度的优选程度，/>为决策树/>的决策树的组成数量，/>为决策树/>的样本维度集合中第/>个样本维度中第/>个特征维度的优选系数。

进一步的，根据决策树中每个特征维度的优选程度和每个特征维度的属性削弱系数获得决策树/>中每个特征维度的信息度量，则决策树/>中第/>个特征维度的信息度量的计算方式为：

其中为决策树/>中第/>个特征维度的信息度量，/>为决策树/>中第/>个特征维度的优选程度，/>为决策树/>中第/>个属性削弱系数，/>表示以自然常数为底的指数函数。将决策树/>中第/>个特征维度的属性削弱系数作为计算决策树/>的样本维度集合中第/>个特征维度的惩罚项，将决策树/>中第/>个特征维度的优选程度作为计算决策树/>的样本维度集合中第/>个特征维度的增益项，惩罚项取值越大说明第/>个特征维度的越不能作为划分节点，增益项取值越大说明第/>个特征维度的越能作为划分节点，使用增益项和惩罚项得到的信息度量用于对决策树/>中第/>个特征维度的信息增益进行调整。

至此，获取到了决策树中每个特征维度的信息度量。

S005、根据每个决策树每个特征维度的信息度量对信息增益加权，获得每个决策树中每个特征维度的最终信息增益，根据最终信息增益获得每个决策树的划分节点。

需要说明的是，获取到了决策树中每个特征维度的信息度量后，计算每个决策树/>中每个特征维度的属性信息熵和类别信息熵，结合决策树/>中每个特征维度的信息度量矫正获得每个特征维度的信息增益率。

具体的，决策树中第/>个特征维度的信息增益率的计算方式为：

其中，为决策树/>中第/>个特征维度的信息增益率，为决策树/>中第/>个特征维度的信息增益，/>为决策树/>中第/>个特征维度的信息度量。/>的计算方式为决策树/>中第/>个特征维度的属性信息熵和类别信息熵的差值，信息熵的计算方式为现有公知技术，本实施例不再进行过多赘述。

同理，根据决策树中每个特征维度的信息增益和信息度量，获得决策树中第/>个特征维度的信息增益率，选择决策树/>中特征维度的信息增益率最大的特征维度作为决策树/>的划分节点。

至此，获取到了决策树的划分节点。

S006、根据每个决策树的划分节点进行决策获得决策结果，进而将决策结果投票对工矿作业数据进行分类。

根据决策树的划分节点对决策树中的样本维度集合进行分类，获得每个样本维度的分类结果，同理所有待分类数据中所有决策树的分类结果，统计所有决策树的分类结果中每个样本维度在不同类别的次数，通过投票的方式将每个样本维度在不同类别的次数中最大次数的类别作为每个样本维度的类别。需要说明的是，决策树结果的投票为现有公知技术，本实施例不进行过多赘述。

进一步的，根据每个样本维度的类别对待分类数据进行归类，使用大数据分析的方法获取每个类别的生产状态。

需要说明的是，本实施例中所用的模型仅表示负相关关系和约束模型输出的结果处于/>区间内，其中/>为本模型的输入，具体实施时可替换成具有同样目的的其他模型，本实施例只是以/>模型为例进行叙述，不对做具体限定。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于人工智能的工矿作业数据分类方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述基于人工智能的工矿作业数据分类方法，其特征在于，所述获得每个样本维度中特征维度的每个属性下共生属性的第一共生参数包括：

3.根据权利要求1所述基于人工智能的工矿作业数据分类方法，其特征在于，所述获得每个样本维度中每个特征维度的优选系数包括：

表示以自然常数为底的指数函数，/>表示取绝对值函数，/>表示/>函数。

4.根据权利要求3所述基于人工智能的工矿作业数据分类方法，其特征在于，获取分析矩阵的具体方式包括：

5.根据权利要求1所述基于人工智能的工矿作业数据分类方法，其特征在于，所述获得每个决策树中每个特征维度的属性削弱系数包括：

6.根据权利要求1所述基于人工智能的工矿作业数据分类方法，其特征在于，所述获得每个决策树的样本维度集合中每个特征维度的优选程度包括：

其中，为决策树/>的决策树的组成数量。

7.根据权利要求1所述基于人工智能的工矿作业数据分类方法，其特征在于，所述获得每个决策树的样本维度集合中每个特征维度的信息度量包括：

决策树中第/>个特征维度的信息度量/>的计算方式为：

8.根据权利要求1所述基于人工智能的工矿作业数据分类方法，其特征在于，所述获得每个决策树的样本维度集合中每个特征维度的信息度量的信息增益率包括：

决策树中第/>个特征维度的信息增益率/>的计算方式为：

其中，为决策树/>中第/>个特征维度的信息增益，/>为决策树/>中第个特征维度的信息度量。

9.根据权利要求8所述基于人工智能的工矿作业数据分类方法，其特征在于，所述信息增益的获取方式包括：

10.根据权利要求1所述基于人工智能的工矿作业数据分类方法，其特征在于，所述根据每个决策树的划分节点进行分类，将分类的结果投票获得每个样本维度的类别包括：