CN116204820A

CN116204820A - 一种基于稀有类挖掘的冲击危险性等级判别方法

Info

Publication number: CN116204820A
Application number: CN202310442993.7A
Authority: CN
Inventors: 王蕊; 陈绍杰; 赵同彬; 田刚; 李学龙; 尹大伟
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-06-02
Anticipated expiration: 2043-04-24
Also published as: CN116204820B

Abstract

本发明公开了一种基于稀有类挖掘的冲击危险性等级判别方法，涉及矿业和信息技术领域。本发明先对采动数据向量化处理，将采动数据分组后提取特征参数得到特征向量后，基于稀有类型数据挖掘算法对整体数据集进行稀有类型检测，获取各种子数据的冲击危险性等级形成训练集，再基于深度学习方法构建冲击危险性等级检测模型，训练冲击危险性等级检测模型挖掘数据并自动生成标记冲击危险性等级标签，形成冲击危险性数据集，再利用文本分类算法构建冲击危险性等级判别模型，利用冲击危险性数据集训练冲击危险性等级判别模型后，采用训练后的冲击危险性等级判别模型判别采动数据的冲击危险性等级，实现了冲击危险性等级的准确判别，有利于冲击危险的预警。

Description

一种基于稀有类挖掘的冲击危险性等级判别方法

技术领域

本发明涉及矿业和信息技术领域，具体涉及一种基于稀有类挖掘的冲击危险性等级判别方法。

背景技术

随着煤炭资源开采深度和开采强度的增加，矿井冲击地压等动力灾害日益加剧，严重威胁煤矿开采的安全。冲击地压作为煤炭资源开采必须解决的重大安全生产难题，国内外学者关于矿井冲击地压进行了大量研究。根据煤矿生产实践中的冲击防治情况，冲击地压的防治主要在于对冲击地压进行早期的冲击危险性监测分析与预测。然而，在冲击地压危险状态判别过程中会出现多种复杂现象，监测数据同包括地质条件、开采技术条件在内的各种信息相互交织，既存在重复又存在相互矛盾，这就使得如何综合利用各参量信息，统一各参量指标中的异常指数，实现对预测结论的一致性描述，已成为当前冲击地压预测的重要课题。

目前，在冲击危险性预警和预测的理论和技术方面已经形成了许多重要成果，也积累了丰富的经验，但在冲击危险性评价理论和方法上仍存在一些关键性的问题亟待解决。尚未建立用于准确评价和预测冲击危险性的方法，尤其是在评价指标、危险判据以及预测模型的有效性和普适性方面还有大量的工作需要深入研究。提高冲击危险性预测水平需要在理论分析、经验类比等方法的基础上，综合采用多种手段进行联合监测，通过研究各种监测信息与冲击地压孕育各阶段之间的关系以及联合监测信息的时空变化规律，建立冲击危险性等级判别指标与模型。

然而，随着采场环境的复杂性和采动大数据的日益增多，冲击危险性等级的判定难度剧增。虽然利用被标记的采动数据集作为机器学习方法的训练集，可以构建判别冲击危险性等级的模型。但是，由于采场正常运行过程中，采场状态一般比较稳定，发生冲击危险性的概率比较低，异常数据在整体的采动数据集合中占比很少，导致难以获取被标记的异常采动训练集。因此，如何有效地从整体采动数据集中提取冲击危险性异常数据已成为目前煤矿安全预警方法中较为欠缺且迫切的诉求。

发明内容

为了解决上述问题，本发明提出了一种基于稀有类挖掘的冲击危险性等级判别方法，该方法利用深度学习方法构建的冲击危险性等级检测模型挖掘获取冲击危险性数据集，结合基于文本分类算法TextCNN所构建的冲击危险性等级判别模型进行冲击危险性等级判别，实现了对冲击危险性等级的准确判别，有利于预测冲击地压事故的发生，为保障矿井的高效安全开采提供了技术支持。

本发明为了实现上述目的，采用如下技术方案：

一种基于稀有类挖掘的冲击危险性等级判别方法，其特征在于，包括如下步骤：

步骤1，获取采场运行过程的采动数据，对采动数据进行向量化处理，通过对采动数据分组得到多个采动数据记录序列，提取各采动数据记录序列中的特征参数，构建特征向量；

步骤2，利用特征向量生成整体数据集，基于具有先验知识的稀有类型数据挖掘算法CLOVER对整体数据集进行稀有类型检测，获取各种子数据的冲击危险性等级，并利用带有冲击危险性等级标签的种子数据作为训练数据，形成训练集；

步骤3，基于深度学习方法构建冲击危险性等级检测模型，利用训练集训练冲击危险性等级检测模型挖掘训练数据学习生成冲击危险性等级标签，并将冲击危险性等级标签标记在所输入的种子数据上，得到被标记有冲击危险性等级标签的冲击危险性数据，形成冲击危险性数据集；

步骤4，基于文本分类算法TextCNN构建冲击危险性等级判别模型，用于判别采动数据的冲击危险性等级，将稀有类型挖掘得到的冲击危险性数据集中的冲击危险性数据作为训练数据，对冲击危险性等级判别模型进行训练，利用训练后的冲击危险性等级判别模型判别新采集采动数据的冲击危险性等级。

优选地，所述步骤1中，具体包括以下步骤：

步骤1.1，获取采场运行过程的采动数据，设置时间窗的时长，基于时间窗对采动数据进行分组，将采动数据划分为多个采动数据记录序列；

所述采动数据用于反映采场运行过程中的地质信息、采掘信息、围岩动态监测信息和支护工况信息，采动数据包括多个指标参数值，所述指标参数包括煤层厚度、煤层倾角、支架型式、支护阻力、微震能量、钻孔应力、老顶初次来压步距和老顶周期来压步距；

步骤1.2，分别针对各采动数据记录序列，将采动数据记录序列内的各指标参数值统一至同一时间点处，得到处理后的采动数据记录序列；

步骤1.3，根据处理后的各采动数据记录序列，获取各指标参数值在所有处理后采动数据记录序列中出现的频率，确定各指标参数用于向量化的权重因子，如公式（1）所示：

（1）

式中，idf(·)为指标参数用于向量化的权重因子，e为指标参数值，T为采动数据记录序列的总数，num为指标值在所有采动数据记录序列中出现的频次；

步骤1.4，根据各指标参数的权重因子，人工选取指标参数作为特征参数，根据所选特征参数的数量确定特征向量的维度，构建特征向量，特征向量中各维度内的各特征值，如公式（2）所示：

（2）

式中，weight为特征值；l为用于表示指标参数是否被选取为特征参数的系数，l取值为0或1，当l=0时，表示指标参数被选取为特征参数，当l=1时，表示指标参数未被选取为特征参数；norm(·)为标准化函数；m为用于表示指标参数是否被格外关注，m取值为0或1，当m=0时，表示指标参数被格外关注，当m=1时，表示指标参数未被格外关注。

优选地，所述步骤2中，具体包括以下步骤：

步骤2.1，根据特征向量中各维度内的各特征值构建整体数据集，设置稀有类型检测的检测次数和标签数量，构建整体数据集的K近邻图；

步骤2.2，基于具有先验知识的稀有类型数据挖掘算法CLOVER对整体数据集进行稀有类型检测；

确定K近邻图中各数据点的局部变更度值，在K近邻图中选取局部变更度值最大的数据点作为最大局部变更度数据记录D_lvdMax，判断最大局部变更度数据记录D_lvdMax是否与冲击危险性相关，若最大局部变更度数据记录D_lvdMax与冲击危险性相关，则将最大局部变更度数据记录D_lvdMax作为用于异常数据挖掘的种子数据，若最大局部变更度数据记录D_lvdMax与冲击危险性无关，则忽略最大局部变更度数据记录D_lvdMax；

步骤2.3，根据K近邻图中各数据点的连接关系，利用最大局部变更度数据记录D_lvdMax的所有相邻数据点构建数据记录集E，将数据记录集E中所有数据点的局部变更度值均设置为-1；

步骤2.4，对数据记录集E中所有数据点人工设置冲击危险性等级标签，获取当前的人工贴标量，若当前的人工贴标量未达到预设的标签数量，则返回步骤2.2中，继续对整体数据集进行稀有类型检测，否则，则进入步骤2.5中；

步骤2.5，结束对整体数据集的稀有类型检测，将稀有类型检测所获取的带有冲击危险性等级标签的种子数据作为训练数据，形成用于深度学习的训练集。

优选地，所述K近邻图中数据点的局部变更度值计算公式为：

（3）

其中，

（4）

（5）

式中，

为数据点的局部变更度值，

为数据点的变更值，

为数据点的孤立值，

、

均为K近邻图中数据点的名称，

为稀有类型检测的检测次数，

为数据点的相邻数据点所构成的近邻集合，

为最小距离求取函数，

为数据点的

个相邻数据点所构成的集合，

为数据点距离第

个相邻数据点的距离，

为整体数据集，

为最大距离求取函数。

优选地，所述步骤3中，具体包括以下步骤：

步骤3.1，基于TextCNN分类算法构建用于冲击危险性数据挖掘的冲击危险性等级检测模型，所述冲击危险性等级检测模型包括输入层、卷积层和输出层；

步骤3.2，利用训练集中的训练数据训练冲击危险性等级检测模型；

将训练集中的N个训练数据依次输入至冲击危险性等级检测模型的输入层中，所述输入层分别获取各训练数据中的种子数据和冲击危险性等级标签，并将训练数据输入至卷积层中；

所述卷积层具有非线性映射的能力，用于卷积处理提取训练数据中的有利信息，各训练数据经过卷积层处理后得到卷积映射结果，将各训练数据的卷积映射结果作为迭代优化函数的学习特征，对迭代优化函数进行优化，并利用迭代优化函数进行聚类并生成冲击危险性等级标签，预测得到种子数据的冲击危险性等级标签并标记在种子数据上，通过所述输出层输出预测的冲击危险性等级标签；

步骤3.3，确定训练后的冲击危险性等级检测模型，利用训练后的冲击危险性等级检测模型挖掘剩余数据用于为采场数据标记冲击危险性数据，得到被标记有冲击危险性等级标签的冲击危险性数据，形成冲击危险性数据集。

优选地，所述步骤3中，冲击危险性等级检测模型的迭代优化函数为：

（6）

式中，

为训练数据的序号，

为第

个训练数据中的种子数据，

为第

个训练数据的冲击危险性等级标签，

为稀有类型检测的类别数，

为种子数据的卷积映射结果，

为学习矩阵，学习矩阵

的尺寸为

，

为各批次输入的数据个数；

为训练数据的总数，

为实数集；

所述冲击危险性等级检测模型中设置损失函数为：

（7）

式中，

为归一化指数函数，

为映射参数，

为模型参数。

优选地，所述步骤4中，具体包括以下步骤：

步骤4.1，基于文本分类算法TextCNN构建冲击危险性等级判别模型；

所述冲击危险性等级判别模型包括输入层、卷积层、池化层和输出层，所述卷积层内设置有三种不同宽度的卷积核，用于对输入层内输入的冲击危险性数据进行卷积并生成特征映射，各卷积核内均设置有两种滤波器，各滤波器计算后得到一个从冲击危险性数据中所提取特征的列向量；所述池化层采用最大池对各特征图处理；所述输出层利用softmax函数处理用于获取冲击危险性数据最终的冲击危险性等级；

步骤4.2，将冲击危险性数据集作为训练冲击危险性等级判别模型所采用的训练集，冲击危险性数据集内挖掘得到的被标记有冲击危险性等级标签的冲击危险性数据作为训练数据，经输入层输入冲击危险性等级判别模型中，同时，获取采场运行过程中新产生的采动数据，重复步骤1，将新采集的采动数据经向量化处理转化为特征向量，对各特征向量进行特征嵌入，转化成维度为

的特征表示后与

个嵌入向量拼接形成输入数据，构建输入数据模型

，输入数据模型

；

步骤4.3，输入数据经输入层卷积层中，基于文本分类算法TextCNN卷积层中仅使用一维卷积，卷积核从上到下滑动进行特征抽取，设置卷积核的宽度与嵌入向量的维数相一致，卷积核的滑动窗口卷积计算结果，如公式（8）所示：

（8）

式中，

为卷积核的滑动窗口卷积计算结果，

为输入数据模型中从

行到

行的子矩阵，

为输入数据模型的行数，

为卷积核，卷积核

的维度为

，

为卷积核的宽度，

为偏置项，

为激活函数；

利用卷积核在输入数据

上滑行进行卷积计算，得到特征图

；

在池化层中对特征图进行最大池化处理，得到多个卷积核的池化结果

，池化结果

，

为卷积核的数量；

所述各卷积核所采用的处理公式均为：

（9）

式中，

为特征图

内的主要特征；

步骤4.4，所述输出层内构建有全连接层，采用softmax激活函数判别新采集采动数据的冲击危险性等级，确定新采集采动数据的冲击危险性等级，并从输出层中输出；

所述输出层中采动数据的冲击危险性等级判别公式为：

（10）

式中，

为采动数据的冲击危险性等级，

为dropout层的处理结果，

为权重。

本发明具有的有益效果是：

本发明提出了一种基于稀有类挖掘的冲击危险性等级判别方法，通过将采动数据挖掘与机器学习方法相结合实现了对采场冲击危险性等级的准确判别，适用于各类采场中具有良好的通用性。同时，本发明基于文本分类算法TextCNN构建用于判别采动数据冲击危险性等级的冲击危险性等级判别模型，利用采动数据快速判别采场状态并进行分类，提高了采场冲击危险性等级判别的准确性，有利于提前预警采场冲击危险的发生提醒采场工作人员提前采取防护措施，有效保障矿井的高效化采煤，为矿下工作人员提供了安全的工作环境。

附图说明

图1为本发明基于稀有类型数据挖掘算法进行稀有类型检测的流程图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

本发明提出了一种基于稀有类挖掘的冲击危险性等级判别方法，具体包括以下步骤：

步骤1，获取采场运行过程的采动数据，对采动数据进行向量化处理，通过对采动数据分组得到多个采动数据记录序列，提取各采动数据记录序列中的特征参数，构建特征向量，具体包括以下步骤：

步骤1.1，获取采场运行过程的采动数据，设置时间窗的时长，基于时间窗对采动数据进行分组，将采动数据划分为多个采动数据记录序列。

所述采场运行过程受地质条件和开采条件的影响，采动数据用于反映采场运行过程中的地质信息、采掘信息、围岩动态监测信息和支护工况信息，采动数据包括多个指标参数值，所述指标参数包括煤层厚度、煤层倾角、支架型式、支护阻力、微震能量、钻孔应力、老顶初次来压步距和老顶周期来压步距。通过将各指标参数值统一至同一时间点上，实现对多源时空数据的联合处理，综合利用采场的采动数据。

步骤1.2，分别针对各采动数据记录序列，将采动数据记录序列内的各指标参数值统一至同一时间点处，得到处理后的采动数据记录序列。

（1）

步骤1.4，由于采动数据中部分指标参数与冲击危险性具有强相关性，在提取特征是，需要增加与冲击危险性具有强相关性的指标参数的权重。根据各指标参数的权重因子，人工选取指标参数作为特征参数，根据所选特征参数的数量确定特征向量的维度，构建特征向量，特征向量中各维度内的各特征值，如公式（2）所示：

（2）

本实施例经特征向量中各特征值经处理后取值范围为[0,2]。

步骤2，利用特征向量生成整体数据集，基于具有先验知识的稀有类型数据挖掘算法CLOVER对整体数据集进行稀有类型检测，获取各种子数据的冲击危险性等级，并利用带有冲击危险性等级标签的种子数据作为训练数据形成训练集，如图1所示，具体包括以下步骤：

步骤2.1，根据特征向量中各维度内的各特征值构建整体数据集，设置稀有类型检测的检测次数和标签数量，构建整体数据集的K近邻图。

步骤2.2，基于具有先验知识的稀有类型数据挖掘算法CLOVER对整体数据集进行稀有类型检测。

确定K近邻图中各数据点的局部变更度值，在K近邻图中选取局部变更度值最大的数据点作为最大局部变更度数据记录D_lvdMax，判断最大局部变更度数据记录D_lvdMax是否与冲击危险性相关，若最大局部变更度数据记录D_lvdMax与冲击危险性相关，则将最大局部变更度数据记录D_lvdMax作为用于异常数据挖掘的种子数据，若最大局部变更度数据记录D_lvdMax与冲击危险性无关，则忽略最大局部变更度数据记录D_lvdMax。

步骤2.3，根据K近邻图中各数据点的连接关系，利用最大局部变更度数据记录D_lvdMax的所有相邻数据点构建数据记录集E，将数据记录集E中所有数据点的局部变更度值均设置为-1。

最大局部变更度数据记录D_lvdMax周围相邻数据点的LVD值往往也很高，如果重复挖掘同一类型的数据记录则会做很多无用功，所以当得到一个最大局部变更度数据记录D_lvdMax后，将该最大局部变更度数据记录D_lvdMax在K近邻图中的相邻数据点均作为已经考虑过的数据记录中，防止同一稀有类型的重复检测。

步骤2.4，对数据记录集E中所有数据点人工设置冲击危险性等级标签，获取当前的人工贴标量，若当前的人工贴标量未达到预设的标签数量，则返回步骤2.2中，继续对整体数据集进行稀有类型检测，否则，则进入步骤2.5中。

所述K近邻图中数据点的局部变更度值计算公式为：

（3）

其中，

（4）

（5）

式中，

为数据点的局部变更度值，

为数据点的变更值，

为数据点的孤立值，

、

均为K近邻图中数据点的名称，

为稀有类型检测的检测次数，

为数据点的相邻数据点所构成的近邻集合，

为最小距离求取函数，

为数据点的

个相邻数据点所构成的集合，

为数据点距离第

个相邻数据点的距离，

为整体数据集，

为最大距离求取函数。

本实施例所述步骤2中，当人工贴标量达到预设的标签数量时，表示稀有类检测过程结束，检测过程中所保留的数据记录为各种冲击危险性等级的代表数据记录，数据记录集E中的冲击危险性等级的数量和特征为代表数据记录的数量和特征，代表数据记录所属的冲击危险性等级与同一个稀有类中的其它数据记录相同。

所述稀有类检测过程不仅实现了对训练集所存在冲击危险性等级的分析，还提取出了各冲击危险性等级中最具有代表性的数据记录。检测过程只需要对每种冲击危险性等级的代表数据记录进行人工贴标的工作。相比于其他监督方法，本发明方法的工作量较少，只需要进行很少的人工贴标工作量。步骤1中获取的采动数据本身没有冲击危险性等级标签的，需要依赖于基于数据训练后的分类器进行标记，而分类器分类的准确率取决于训练集内训练数据的质量。因此，由于训练集中的正常数据往往远多于异常数据，采用本发明方法更有利于从数据空间中挖掘指导采场安全生产的有价值数据，快速标记数据记录的冲击危险性等级标签。

步骤3，基于深度学习方法构建冲击危险性等级检测模型，利用训练集训练冲击危险性等级检测模型挖掘训练数据学习生成冲击危险性等级标签，并将冲击危险性等级标签标记在所输入的种子数据上，得到被标记有冲击危险性等级标签的冲击危险性数据，形成冲击危险性数据集，具体包括以下步骤：

步骤3.1，基于TextCNN分类算法构建用于冲击危险性数据挖掘的冲击危险性等级检测模型，所述冲击危险性等级检测模型包括输入层、卷积层和输出层。

步骤3.2，利用训练集中的训练数据训练冲击危险性等级检测模型。

所述卷积层具有非线性映射的能力，用于卷积处理提取训练数据中的有利信息，各训练数据经过卷积层处理后得到卷积映射结果，将各训练数据的卷积映射结果作为迭代优化函数的学习特征，对迭代优化函数进行优化，并利用迭代优化函数进行聚类并生成冲击危险性等级标签，预测得到种子数据的冲击危险性等级标签并标记在种子数据上，通过所述输出层输出预测的冲击危险性等级标签。

所述步骤3中，冲击危险性等级检测模型的迭代优化函数为：

（6）

式中，

为训练数据的序号，

为第

个训练数据中的种子数据，

为第

个训练数据的冲击危险性等级标签，

为稀有类型检测的类别数，

为种子数据的卷积映射结果，

为学习矩阵，学习矩阵

的尺寸为

，

为各批次输入的数据个数；

为训练数据的总数，

为实数集。

所述冲击危险性等级检测模型中设置损失函数为：

（7）

式中，

为归一化指数函数，

为映射参数，

为模型参数。

本实施例中，利用训练数据不断训练迭代优化函数学习被标记有冲击危险性等级标签的种子数据，使用迭代优化函数对特征进行聚类产生冲击危险性等级标签，更新损失函数中的映射参数和模型参数，对剩余数据记录挖掘以产生预测标签并自动贴标。

当挖掘过程结束时，即得到了多种带有冲击危险性等级的冲击危险性数据，本发明方法在整个冲击危险性相关数据挖掘阶段无需采用数据集的先验知识，可以直接处理采动数据进，具有良好的便捷性。同时，本实施例冲击危险性相关数据挖掘阶段中，仅需对多类冲击危险性等级的代表数据进行人工鉴别，并自动完成同类冲击危险性相关数据的贴标工作，有效减少了稀有类相关数据挖缺过程中的人力消耗。

步骤4，基于文本分类算法TextCNN构建冲击危险性等级判别模型，用于判别采动数据的冲击危险性等级，将稀有类型挖掘得到的冲击危险性数据集中的冲击危险性数据作为训练数据，对冲击危险性等级判别模型进行训练，利用训练后的冲击危险性等级判别模型判别新采集采动数据的冲击危险性等级，具体包括以下步骤：

步骤4.1，基于文本分类算法TextCNN构建冲击危险性等级判别模型。

所述冲击危险性等级判别模型包括输入层、卷积层、池化层和输出层，所述卷积层内设置有三种不同宽度的卷积核，用于对输入层内输入的冲击危险性数据进行卷积并生成特征映射，本实施例中第一种卷积核的宽度设置为2，第二种卷积核的宽度设置为3，第三种卷积核的宽度设置为4，各卷积核内均设置有两种滤波器，各滤波器计算后得到一个从冲击危险性数据中所提取特征的列向量；所述池化层采用最大池对各特征图处理；所述输出层利用softmax函数处理用于获取冲击危险性数据最终的冲击危险性等级。

的特征表示后与

个嵌入向量拼接形成输入数据，构建输入数据模型

，输入数据模型

。

步骤4.3，输入数据经输入层卷积层中，基于文本分类算法TextCNN卷积层中仅使用一维卷积，卷积核从上到下滑动进行特征抽取，由于只有当卷积核的宽度与嵌入向量的维数相同时，卷积核和输入数据模型的列数相同，卷积核提取的各冲击危险性数据记录才是完整的，所以设置卷积核的宽度与嵌入向量的维数相一致，卷积核的滑动窗口卷积计算结果，如公式（8）所示：

（8）

式中，

为卷积核的滑动窗口卷积计算结果，

为输入数据模型中从

行到

行的子矩阵，

为输入数据模型的行数，

为卷积核，卷积核

的维度为

，

为卷积核的宽度，

为偏置项，

为激活函数。

利用卷积核在输入数据

上滑行进行卷积计算，得到特征图

。

，池化结果

，

为卷积核的数量。

所述各卷积核所采用的处理公式均为：

（9）

式中，

为特征图

内的主要特征。

步骤4.4，所述输出层内构建有全连接层，采用softmax激活函数判别新采集采动数据的冲击危险性等级，确定新采集采动数据的冲击危险性等级，并从输出层中输出。

所述输出层中采动数据的冲击危险性等级判别公式为：

（10）

式中，

为采动数据的冲击危险性等级，

为dropout层的处理结果，

为权重。

本实施例中通过将各卷积核的最大值相连接，在特征图中捕获主要特征

的同时大幅度降低了参数数目，降低了冲击危险性等级判别模型的过拟合风险。

基于文本分类算法TextCNN具有在简单网络结构的前提下仍具有优秀的训练效果，在多种评估指标上均能超过最邻近结点算法等经典模型。本发明模型另一个优势是参数数目少，计算量少且对硬件要求不高，训练速度快。通过实验得到当基于文本分类算法TextCNN构建冲击危险性等级判别模型，处理165万的采动数据时，仅需要半个小时左右即可收敛。

相比于有限状态机等非监督方法，仅能发现采场出现了冲击危险性，却无法判定冲击危险性等级，本发明方法实现了对冲击危险性等级的判别，便于现场安全员快速对冲击危险性做出相应的反应。此外，本发明方法着重于占比很少的异常数据，对整体数据的稀有类进行探索，实现了对整体数据中比例较小的异常数据的挖掘。

为了验证本发明提出的基于稀有类挖掘的冲击危险性等级判别方法的可行性与优越性，采用本发明方法处理某煤矿采场作业产生的采动数据，将时间窗口的时间单位设置为小时，通过时间窗口的形式对采动数据进行分组，对采动数据进行向量化处理，得到8种特征，以小时作为单位分组并提取特征向量后得到1248个特征向量。

本发明利用采动数据向量化处理得到的特征向量进行稀有类检测，在检测得到的稀有类数据记录中筛选与冲击危险性相关的稀有类，统计各种冲击危险性等级在特征向量集中的相关数量，将冲击危险性等级划分为0、1、2和3，当冲击危险性等级划分为0时，表示无冲击，当冲击危险性等级划分为1时，表示弱冲击，当冲击危险性等级划分为2时，表示中等冲击，当冲击危险性等级划分为3时，表示强冲击。

本实施例中冲击危险性等级为0的特征向量数为1037，冲击危险性等级为1的特征向量数为110，冲击危险性等级为2的特征向量数为74，冲击危险性等级为3的特征向量数为26。

为了进一步验证本发明方法基于文本分类算法TextCNN所构建冲击危险性等级判别模型的性能，将采用本发明构建的冲击危险性等级判别模型分别与多层感知机（MLP）、反向传播神经网络（BP）、深度神经网络（DNN）、深度置信网络（DBN）、支持向量机（SVM）、K最近邻算法（KNN）、自适应提升算法（Adaboost）、TextRNN_att模型、TextRCNN模型和Fasttext模型进行比较。

其中，多层感知机由输入层、至少一个隐藏层和输出层组成，多层感知机中层与层之间是全连接的。反向传播神经网络作为一个有监督的神经网络，学习过程由正向和反向两部分组成。网络首先计算输出值与期望输出值之间的误差，然后利用误差进行反向传播调整各层单元的连接权重。深度神经网络的网络结构与多层感知机类似，但是多层感知机的层数少于深度神经网络，深度神经网络的隐藏层大于两层。深度置信网络是由受限玻尔兹曼机和Sigmoid信念网络构成的混合生成模型，模型中各节点均服从伯努利分布。支持向量机作为一个经典的分类器，通过构造分割平面分离数据，在训练过程中利用正则化避免过拟合问题。K最近邻算法基于任一样本在特征空间中最相邻的K个样本大多属于同一类别，对样本进行分类。自适应提升算法作为分类算法中的集成算法，所采用的决策树通常很浅，只有一个根节点和两个叶节点。TextRNN_att模型采用注意力机制和双向长短时记忆网络捕获向量中最重要语义信息用于分类。TextRCNN模型设置为双向循环结构，利用循环神经网络解决分类问题，最大程度捕获向量信息。Fasttext模型结构简单，仅设置一层隐藏层，训练速度非常快。

利用相同的测试数据对各网络模型进行冲击危险性等级判别测试，得到多层感知机的准确率为85.2%、召回率为83%和F1值为44.5%，反向传播神经网络的准确率为80.4%、召回率为25%和F1值为22.3%，深度神经网络的准确率为82.17%、召回率为25%和F1值为21.4%，深度置信网络的准确率为86%、召回率为25%和F1值为23.19%，支持向量机的准确率为84%、召回率为81.7%和F1值为75%，K最近邻算法的准确率为81%、召回率为79.4%和F1值为72%，自适应提升算法的准确率为82.5%、召回率为78.1%和F1值为78%，TextRNN_att模型的准确率为83.2%、召回率为80.4%和F1值为78.2%，TextRCNN模型的准确率为84%、召回率为81.1%和F1值为77.5%，Fasttext模型的准确率为85.6%、召回率为83%和F1值为74%，本发明方法基于文本分类算法TextCNN所构建冲击危险性等级判别模型的准确率为88%、召回率为84%和F1值为83.6%。

通过对比可得，采用本发明方法基于文本分类算法TextCNN所构建冲击危险性等级判别模型的算法准确率、召回率和F1值均是最高的，相比于为了文本分类所提出的TextRNN_att模型、TextRCNN模型和Fasttext模型，本发明方法基于文本分类算法TextCNN所构建冲击危险性等级判别模型相比于其他文本分类算法中准确率排名第一的Fasttext模型，准确率提高了2.4%、F1值提高了9.6%。相比于其他经典分类算法，本发明方法基于文本分类算法TextCNN所构建冲击危险性等级判别模型相比于其他经典分类算法中准确率排名第一的深度置信网络，准确率提高了2%，相比于其他经典分类算法中召回率排名第一的多层感知机，召回率提高了1%，相比于其他经典分类算法中F1值排名第一的自适应提升算法，F1值提高了6%。反向传播神经网络、深度神经网络和深度置信网络的召回率均未25%，这是因为在分类过程中，这些算法无法学习到稀有类的数据特征，对稀有类无法正确进行等级判别。

通过分析各网络模型的测试结果可知，基于向量化处理的采动数据和稀有类型算法检测后，获得的贴标采动数据在卷积神经网络中能够被很好的学习，基于文本分类算法TextCNN所构建冲击危险性等级判别模型深度挖掘了采动数据的特征，经过不断迭代训练，冲击危险性等级判别模型对冲击危险性等级判断的准确率达到了88%，能够用于提前预测煤矿的冲击危险并快速采取响应措施，有利于减少事故的发生。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。