CN111814851B

CN111814851B - 一种基于单类支持向量机的煤矿瓦斯数据标记方法

Info

Publication number: CN111814851B
Application number: CN202010584834.7A
Authority: CN
Inventors: 代劲; 刘海川; 张奇瑞; 胡峰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2021-07-06
Anticipated expiration: 2040-06-24
Also published as: CN111814851A

Abstract

本发明属于煤矿瓦斯安全邻域，具体涉及一种基于单类支持向量机的煤矿瓦斯数据标记方法，包括：实时获取原始数据集，将原始数据集进行分类，得到二分类不平衡数据集；采用K‑means聚类算法对二分类不平衡数据集进行处理，得到k个样本池；每个样本池包括一个未打标的样本池和一个打标的样本池；将k个样本池中的数据分别输入到单类支持向量机模型中，预测k个未打标样本池中的打标标签；根据预测的打标标签对原始数据进行打标；本发明在对煤矿瓦斯数据进行标记时采用单类支持向量机主动学习，减少了煤矿瓦斯数据的标记样本；本发明在进行主动学习过程中加入密度以及分布信息，使得挑选的样本更具有代表性。

Description

一种基于单类支持向量机的煤矿瓦斯数据标记方法

技术领域

本发明属于煤矿瓦斯安全邻域，具体涉及一种基于单类支持向量机的煤矿瓦斯数据标记方法。

背景技术

在煤矿瓦斯安全领域中，涉及的数据量非常大。为了对煤矿数据进行研究，使用传统的监督学习方法需要大量的样本标签。为了减少打标成本，使用主动学习减少打标样本是非常必要的。主动学习是一种机器学习算法，通过标记样本池中部分信息量较大的样本，从而得到全部样本的样本标签。传统的煤矿数据打标方法包括不确定性采样方法和基于委员会查询的方法。除了针对平衡数据的主动学习方法之外，还有一些针对专门的不平衡数据集的主动学习方法。比如，支持向量机主动学习方法，极限学习机主动学习方法等。在支持向量机主动学习中，包括支持向量机主动学习结合过采样方法(BORDER-AL)，支持向量机主动学习结合虚拟采样方法(VIRTIAL-AL)。

当前，针对平衡数据的主动学习方法不太适合煤矿瓦斯数据的打标。因为在煤矿瓦斯数据中，大多都是不平衡数据集。由于支持向量机算法对于数据的不平衡程度往往不太敏感，所以使得支持向量机处理不平衡数据具有一定的优势。但是，煤矿数据属于高度不平衡数据，使得算法的初始化困难和主动学习挑选的样本重要性降低，

采用不平衡数据主动学习方法处理煤矿数据时往往会造成标签浪费，使得打标费时费力；怎么样进一步减少打标样本数量，用以适合煤矿瓦斯安全数据的打标是非常有必要的。

发明内容

为解决以上现有技术问题，本发明提出了一种基于单类支持向量机的煤矿瓦斯数据标记方法，包括：

实时获取煤矿瓦斯原始数据集，将煤矿瓦斯原始数据集进行分类，得到二分类不平衡数据集；

采用K-means聚类算法对二分类不平衡数据集进行处理，得到k个样本池；每个样本池包括一个未打标的样本池和一个打标的样本池；

对每个打标的样本池中的数据进行分类，得到k个正类打标样本池和k个负类打标样本池；

将k个正类打标样本池分别输入到单类支持向量机模型中，预测k个未打标样本池中的打标标签；根据k个未打标样本池中的打标标签对煤矿瓦斯原始数据集中的数据进行打标。

优选的，所述得到二分类不平衡数据集的过程包括：

步骤1：提取原始数据集中的特征；

步骤2：根据提取的数据特征对数据集进行打标分类，得到二分类不平衡数据集。

优选的，提取原始数据集中的特征包括：当前瓦斯浓度与前一次采集的瓦斯浓度的差值，当前瓦斯浓度与下一次采集的瓦斯浓度的差值以及当前瓦斯浓度值。

优选的，得到样本池的过程包括：

步骤1：采用K-means算法对二分类不平衡数据集进行聚类，得到K个簇；

步骤2：计算每个簇中每个样本的曼哈顿距离；挑选出每个簇中曼哈顿距离最小的两个样本；并对两个样本进行初始化；

步骤3：设置单类支持向量机学习循环次数m；

步骤4：将初始化的样本数据输入到单类支持向量机中进行主动学习。

优选的，对两个样本进行初始化的过程包括：计算每簇中所有样本距离dc；计算每个样本到别的样本距离的最小值dc_i；将dc中的最小值记为dc_min；根据得到的dc_i与dc_min求每个样本密度；对每簇中样本密度最大的两个样本进行标记，将标记结果为正的样本作为单类支持向量机的初始化样本。

优选的，计算每簇中所有样本距离最近的两个样本距离dc的公式为：

优选的，样本密度公式为：

dc_min＝min(dc)

优选的，将初始化的样本数据输入到单类支持向量机中进行主动学习的过程包括：

步骤41：对初始化的样本数据进行打标；将标记池分为正类标记样本池和负类标记样本池；若标记的样本为正，则将该样本放正类标记样本池，若标记的样本为负，则将该样本放入负类样标记样本池；

步骤42：确定当前打标次数，判断当前打标次数与设置的循环次数m的大小，当打标次数小于循环次数时，执行步骤43；当打标次数大于等于循环次数时，执行步骤45；

步骤43：将标记样本池中的正类标记样本输入到支持向量机模型中进行学习，预测得到未标记样本池中的标签；

步骤44：采用样本查询策略对预测得到未标记样本池中的标签进行抽样，并将抽样得到的样本加入标记样本池中，同时移除未标记样本池中对应的样本，对标记样本池和未标记样本池进行更新，打标次数加1；返回步骤42；

步骤45：将最终更新后的标记样本池重新输入到单类支持向量机中进行学习，最终得到该样本池中的样本标签。

进一步的，采用样本查询策略对预测得到未标记样本池中的标签进行抽样的公式为：

Q＝pl*dt

本发明采用在对煤矿瓦斯数据进行标记时，采用单类支持向量机主动学习，相比其他标记方法减少煤矿瓦斯数据的标记样本；本发明在进行主动学习过程中加入密度以及分布信息，使得挑选的样本更具有代表性。

附图说明

图1为本发明的具体流程图；

图2为本发明的单类支持向量机的流程图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于单类支持向量机的煤矿瓦斯数据标记方法，如图1所示，该方法包括：

根据打标结果计算打标数量以及AUC面积。

其中，AUC表示受试者工作特征曲线与坐标轴围成的面积。

本实施例中进行聚类的数量为6，即所述样本池包括6个未打标的样本池和6个标记池。

所述单类支持向量机使用的核函数为rbf核函数。

本发明采用具体的煤矿瓦斯数据集对本方法做具体说明。

对煤矿数据进行打标后，可以得到带标签的数据；采用监督类机器学习算法或者预测算法对带标签的数据进行分类学习；学习后得到的数据和模型可用于煤矿事故数据分类、煤矿事故预测等领域。

本实施例中，获取的原始数据集为采集真实煤矿瓦斯生产的数据集；包括打通一矿、逢春煤矿、石壕煤矿、松藻煤矿、渝阳煤矿的2017部分、2018、2019的部分煤矿瓦斯传感器数据。每个传感器每分钟或每五分钟采集一次数据，并记录瓦斯浓度。

本实施例选择松藻煤矿353511号节点传感器2018年数据为例，该数据由传感器每五分钟采集一次使，共包括87791条数据。

由于传感器节点采集的数据很容易丢失或者因矿区停产，从而没有数据，又或者有些矿区常年没有瓦斯浓度超限等情况。本实施例选择正常生产的矿井回采面瓦斯传感器采集的数据；对该传感器采集的数据进行特征提取；

对原始的数据集进行预处理的过程包括：假设在三个连续时间点采集的瓦斯浓度数据分别为c1，c2，c3。则对c2这一时刻提取的特征为：c2，(c2-c1)，(c2-c3)。对提取特征后的数据进行去除冗余数据操作，去除后数据集包括3029条数据。

得到二分类不平衡数据集的过程包括：

步骤1：提取原始数据集中的特征；

所述提取原始数据集中的特征包括：当前瓦斯浓度与前一次采集的瓦斯浓度的差值，当前瓦斯浓度与下一次采集的瓦斯浓度的差值以及当前瓦斯浓度值。

如图2所示，将二分类不平衡数据集输入到单类支持向量机的模型中进行主动学习的过程包括：

步骤1：对二分类不平衡数据集进行聚类，得到K簇数据集；所述聚类的方法包括采用K-mean聚类的方法；

本实施例中选取的聚类数量为6，即通过K-mean或者c-means聚类算法得到6个簇的数据集。

对两个样本进行初始化的过程包括：对获取原始数据集进行聚类，得到k簇数据；计算两两样本数据之间的距离，选取所有样本中距离最近的两个样本，并求出这两个样本的距离值；选取每个样本到别的样本的距离的最小值；根据选取的值计算样本密度；对每个簇中样本密度最大的两个样本进行标记，并将标记结果为正的样本加入正类样本池，标记为负的加入负类样本池。

计算每簇中所有样本距离最近的两个样本距离dc的公式为：

其中，X_i表示第i个样本，X_j表示第j个样本，n表示所有样本。

样本密度公式为：

dc_min＝min(dc)

其中，dt_i表示样本密度，dc_i表示当前簇中与样本最近的距离，dc_min表示当前簇中最近两个样本的距离。

步骤3：设置单类支持向量机学习循环次数m；

步骤4：将初始化的样本数据输入到单类支持向量机中进行学习，得到样本池。

将初始化的样本数据输入到单类支持向量机中进行学习的过程包括：

步骤41：对初始化的样本数据进行打标；将达标后的样本从样本池移到标记池；

采用样本查询策略对预测得到未标记样本池中的标签进行抽样的过程包括：根据样本密度信息以及单类支持向量机模型预测得到的未标记样本池中样本标记对样本进行挑选，即对标记为正类的样本密度最大的样本进行打标；将打标后的样本加入标记池。

所述采用样本查询策略对预测得到未标记样本池中的标签进行抽样的公式为：

Q＝pl*dt

其中，Q表示抽样得到的样本，pl表示每一次单类支持向量机学习预测的样本标记，dt表示样本密度。

计算AUC面积的公式为：

表一

根据表一得到计算公式真正率(TPR)核伪正率(FPR)：

根据计算得到的TPR和FPR作出ROC曲线，计算ROC曲线下的面积得到AUC面积。

本发明对比了VIRTIAL-AL和BORDER-AL两个主动学习算法。本文提出的方法简记为OCSVM-AL。

本实施例通过在同样打标比例的情况下，对比AUC面积的大小。AUC面积最大为1，越大代表效果越好。本实施例设置了2％,5.8％,33％的阈值进行打标。

本实施例的计算得到的结果如表二所示：

表二

根据结果来看，本文提出的方法在2％和5.8％时，便可以获得较高的AUC面积。而此时对比的另外两种算法几乎是无效的。这是因为较少的样本无法使得另外两种算法进行初始化。当打标标签达到33％时，虽然可以取得比较好的效果，但是已经失去了使用算法标记数据的意义。一般认为标记数量在10％以内是有效的。根据表中结果可知，针对煤矿数据集，本发明提出的方法可以使用更少的标签来达到较高的AUC面积。证明本发明提出的算法可以有效为煤矿瓦斯浓度数据打标。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于单类支持向量机的煤矿瓦斯数据标记方法，其特征在于，包括：

将k个正类打标样本池分别输入到单类支持向量机模型中，预测k个未打标样本池中的打标标签；根据k个未打标样本池中的打标标签对煤矿瓦斯原始数据集中的数据进行打标；

得到k个样本池的过程包括：

步骤3：设置单类支持向量机学习循环次数m；

步骤4：将初始化的样本数据输入到单类支持向量机中进行主动学习；

对两个样本进行初始化的过程包括：计算每簇中所有样本距离dc；计算每个样本到别的样本距离的最小值dc_i；将dc中的最小值记为dc_min；根据得到的dc_i与dc_min求每个样本密度；对每簇中样本密度最大的两个样本进行标记，将标记结果为正的样本作为单类支持向量机的初始化样本；

计算每簇中所有样本距离dc的公式为：

其中，X_i表示第i个样本，X_j表示第j个样本，n表示所有样本；

样本密度公式为：

dc_min＝min(dc)

其中，dt_i表示样本密度，dc_i表示当前簇中与样本最近的距离，dc_min表示当前簇中最近两个样本的距离，min(.)表示选取最小值，X_i表示第i个样本，X_j表示第j个样本，n表示所有样本。

2.根据权利要求1所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法，其特征在于，所述得到二分类不平衡数据集的过程包括：

步骤1：提取原始数据集中的特征；

3.根据权利要求2所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法，其特征在于，所述提取原始数据集中的特征包括：当前瓦斯浓度与前一次采集的瓦斯浓度的差值，当前瓦斯浓度与下一次采集的瓦斯浓度的差值以及当前瓦斯浓度值。

4.根据权利要求1所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法，其特征在于，所述将初始化的样本数据输入到单类支持向量机中进行主动学习的过程包括：

5.根据权利要求4所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法，其特征在于，所述采用样本查询策略对预测得到未标记样本池中的标签进行抽样的公式为：

Q＝pl*dt