CN110689140A

CN110689140A - 一种通过大数据进行轨交报警数据智能管理的方法

Info

Publication number: CN110689140A
Application number: CN201910927551.5A
Authority: CN
Inventors: 常伟; 余捷全
Original assignee: Guangdong Yuxiu Technology Co Ltd
Current assignee: Guangdong Yuxiu Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-14

Abstract

本发明涉及轨道交通维护技术领域，尤其是一种通过大数据进行轨交报警数据智能管理的方法；它包括以下步骤：S1确定用于警报排序的聚类；S2特征提取；S3建立预测模型；S4绩效的定量评估；在固定时间或数量下压缩原始数据，这将提高算法的效率；根据历史信息自动调整未来警报的分数。因此，警报的类型更客观；可以自适应地更新每种类型的警报的阈值，可以预先发出警报，并且阈值随着训练样本的增加而变化。

Description

一种通过大数据进行轨交报警数据智能管理的方法

技术领域

本发明涉及轨道交通维护技术领域，尤其是一种通过大数据进行轨交报警数据智能管理的方法。

背景技术

在轨道交通中，每一天都会产生大量的报警数据。例如电池过充、电压/电流异常、热失控、人流预警等等。这些报警数据都会记录在日志中，甚至会存储在数据库中，以备后续的查看和研究。现有的报警数据管理方法类似于智能看板，例如中国专利公开了警情大数据管理系统，申请号201711025502.X，其中记载：所述警情大数据管理系统包括：数据预处理子系统，用于预先处理警情数据以减少数据错误；数据汇聚子系统，用于将多路、多种警情数据汇集并存入至数据库；数据分析子系统，用于分析处理存入至所述数据库的警情数据；数据应用子系统，用于建立基于警情数据的算法模型，多个数据仓库并行数据分析和运算；数据展示子系统，用于显示需要展示的数据和信息；监测管理子系统，用于监测所述警情大数据管理系统的正常运行；所述数据预处理子系统，数据汇聚子系统，数据应用子系统和数据展示子系统之间构成数据连接。

上述技术方案只能对海量的报警数据进行实时的排序和分类处理，而无法对未来可能出现的警报无法进行预测。

发明内容

针对现有技术的不足，本发明提供一种高效的、客观的、可以预测警报的报警数据管理方法。

本发明的技术方案为：

一种通过大数据进行轨交报警数据智能管理的方法，其特征在于：它包括以下步骤：

S1确定用于警报排序的聚类；

S2特征提取；

S3建立预测模型；

S4绩效的定量评估。

其中，步骤1中，由于没有用于分类的标签，因此最初将其视为无监督的聚类过程。必要时，会针对数据清理步骤中的确认延迟计算每个警报。当然，延迟可以分为两列数据(两个变量)：确认的延迟并改变延迟。然后，如果我们计算它们之间的差异，将获得表示确切维修时间的新变量。此外，还可以应用特征构造方法来创建包含前者的集成新变量，例如，考虑线性模型(假设前者是正相关的)：

Integrated_Delay＝α*Acknowledged_Delay+β*Changeback_Delay

其中α和β是数值范围内的权重，例如(0,1)。Integrated_Delay为综合延迟，Acknowledged_Delay为已经确认的延迟，Changeback_Delay为转换延迟。

我们现在考虑上面刚刚创建的延迟功能来确定警报的排名。

通常，我们可以从经典统计的角度分别分析延迟特征。例如，我们可以轻松获得均值，方差，分位数，以及偏度和峰度。通过标准化，数据将由一般分布模型近似地描绘，其可以根据某个统计标准(例如，分位数)被划分为若干区间(排名级别)。此外，我们通过特征构造创建的集成延迟也将易于分析，因为数据可以适合混合分布模型。

但是，对于大多数情况，应用机器学习方法来完成聚类更具说服力。建议采用各种聚类方法，鼓励(如果效率允许)使用不同的机器学习方法进行测试，以便对结果进行比较。作为建议的过程，我们首先应用DBSCAN(基于密度的噪声应用的空间聚类)来发现可能获得多少级别的聚类(排名)，然后应用其他聚类方法(如K-means，Gaussian Mixture，Agglomerative Clustering，Birch等)通过设置由DBSCAN指示的簇数。我们比较由各种聚类方法生成的这些结果并确定最佳聚类方法，或者进一步创建由某些计算公式(例如加权平均)描述的组合结果。

考虑到我们有几个不同的变量可供分析，我们将分别对它们进行聚类，并按列对比结果。在考虑投票分类器之后，我们选择每个警报的大部分结果作为最终排名。因此，我们得到了新的分类变量，表明了警报的排名水平。

其中，步骤2中，特征提取是工作中最具创造性和最耗时的部分。由于以下困难而变得复杂：

·一般来说，原始数据主要包含不同角度的所有分析(包括优先级，设备类型，站点等)由各种类型的分类的定性特征组成。我们最初将标称数据转换为数字(表示类别)是很自然的，但是对于“1,2,3”级别的简单转换器可能会导致原始数据实际上未指示的序列顺序。

·为了避免如上所述的过度解释，最好的方法是应用单热编码，通过将具有N个可能值的分类特征，编码为一个长度为N的向量，并用一个非零元素将其转换为数值形式。

例如，我们建议对三个变量RGB(基本颜色)进行单热编码(One-Hot编码)：

R→[1,0,0]^T

G→[0,1,0]^T

B→[0,0,1]^T

显然，三个单热生成的向量是线性无关的，因此可以构建非奇异矩阵来描绘标称数据：

至于我们的情况，我们构建一个矩阵，对所有设备状态进行一次性编码，并添加所有测量值，包括我们刚刚在步骤1中生成的警报等级作为我们的预测目标。

其中，步骤3中：由于需要使用所提供的所有类型的变量来预测警报的排名，因此这是监督学习的典型情况。我们将警报等级(这是从步骤1生成的确切结果)视为因变量Y，以及将其他变量视为自变量X₁,…,X_n。现在的问题是将机器学习算法拟合到具有通式的模型中：Y～X₁+X₂+...+X_n。

考虑到我们已经通过一个热编码将所有特征提取到数字矩阵中，它变得相当直接的计算。其中一种通用机器学习算法应用于结果矩阵。SVM，神经网络，随机森林和Boosting等方法是用于多级分类的监督学习的流行方法。在我们的例子中，我们建议使用XGBoost库中实现的Gradient Boosting方法。

■XGBOOST

梯度提升以弱预测模型的集合形式生成预测模型，通常是决策树。它像其他增强方法一样以阶段方式构建模型，并通过允许优化任意可微分损失函数来推广它们。

对于给定的数据集n例子和m特征D＝{(x_i,y_i)}(|D|＝n,x_i∈R^m,y_i∈R)，树集合模型使用K附加功能预测输出：

其中F＝{f(x)＝w_q(x)}(q:R^m→T,w∈R^T)是回归树的空间(也称为CART)。

对于给定的示例，我们将使用树中的决策规则(由q)将其分类为叶子，并通过总结相应叶子中的分数来计算最终预测(由...给出)w).要了解模型中使用的函数集，我们最小化以下正则化目标。

其中

这里l是一个可微的凸损函数，它测量预测之间的差异

和目标y_i.第二个任期Ω惩罚模型的复杂性(回归树函数)。额外的正则化项有助于平滑最终权重以避免过度拟合。直观地，正则化目标将倾向于选择采用简单和预测函数的模型。

正式，让

是预测的i第一个例子t第二次迭代，我们需要添加f_t尽量减少以下目标。

二阶近似可用于在一般设置中快速优化目标：

其中

和。

从技术上讲，XGBoost是Gradient Boosting的修订版，它通过惩罚损失函数的新型正则化以及计算步骤的优化。它被证明是多类分类任务中最有效的集合方法之一。

■特征选择

由于在我们的情况下，N可能非常大，我们必须将训练矩阵实现为稀疏矩阵。另外，如果考虑了许多变量，那么评估计算资源的效率和成本是至关重要的，因为训练矩阵往往是大规模的。因此，需要在预测之前完成特征选择的过程，以便减小模型的尺寸。

有效完成特征选择过程的典型方法之一是测量特征重要性，正确估计特征是对最终性能的贡献。特征重要性在理论上是包含在每个集合方法中的基本函数。以下是功能的典型步骤

按型号选择：

1.通过Bootstrap方法进行采样(相对小规模以确保简单快速的计算)(或者，如果效率允许，则进行K折交叉验证)。

2.按型号选择特征。为每个样本空间应用集合方法(XGBoost)以获得特征重要性。

3.计算平均特征重要性作为最终结果。按降序对要素重要性进行排序，然后选择进一步培训所需的第一个要素，然后删除其余部分。

其中，步骤4中：对于故障诊断和报警检测的一般情况，我们主要考虑TPR(真阳性率)和FPR(假阳性率)以及预测精度，因此我们使用AUC作为模型精度的主要量化特征。

接收器操作特性曲线或ROC曲线是示出二元分类器系统的诊断能力的图形图，因为其辨别阈值是变化的。通过在各种阈值设置下绘制真阳性率(TPR，又称敏感性，回忆)与假阳性率(FPR)的关系来创建ROC曲线。分析以直接和自然的方式与诊断决策的成本/效益分析相关联。

AUC代表“ROC曲线下面积”，值在0和1之间变化，无信息分类器产生0.5。一般等式如下：

其中M是阳性样本数、N是阴性样本数。越接近1，模型的性能越好。

本发明的有益效果为：本发明有三个亮点，即效率，适应性，客观性；在固定时间或数量下压缩原始数据，这将提高算法的效率；根据历史信息自动调整未来警报的分数。因此，警报的类型更客观；可以自适应地更新每种类型的警报的阈值，可以预先发出警报，并且阈值随着训练样本的增加而变化。

附图说明

图1为本发明的原理示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

首先，创建一种用于警报排名的新型机器学习模型。由于没有用于分类的标签，因此最初将其视为无监督的聚类过程。必要时，会针对数据清理步骤中的确认延迟计算每个警报。当然，延迟可以分为两列数据(两个变量)：确认的延迟并改变延迟。然后，如果我们计算它们之间的差异，将获得表示确切维修时间的新变量。此外，还可以应用特征构造方法来创建包含前者的集成新变量，例如，考虑线性模型(假设前者是正相关的)：

Integrated_Delay＝α*Acknowledged_Delay+β*Changeback_Delay

其中α和β是数值范围内的权重，例如(0,1)。

我们现在考虑上面刚刚创建的延迟功能来确定警报的排名。

通常，我们可以从经典统计的角度分别分析延迟特征。例如，我们可以轻松获得均值，方差，分位数，以及偏度和峰度。通过标准化，数据将由一般分布模型近似地描绘，其可以根据某个统计标准(例如，分位数)被划分为若干区间(排名级别)。此外，我们通过特征构造创建的集成延迟也将易于分析，因为数据可以适合混合分布模型。但是，对于大多数情况，应用机器学习方法来完成聚类更具说服力。建议采用各种聚类方法，鼓励(如果效率允许)使用不同的机器学习方法进行测试，以便对结果进行比较。作为建议的过程，我们首先应用DBSCAN(基于密度的噪声应用的空间聚类)来发现可能获得多少级别的聚类(排名)，然后应用其他聚类方法(如K)-means，Gaussian Mixture，Agglomerative Clustering，Birch等)通过设置由DBSCAN指示的簇数。我们比较由各种聚类方法生成的这些结果并确定最佳聚类方法，或者进一步创建由某些计算公式(例如加权平均)描述的组合结果。考虑到我们有几个不同的变量可供分析，我们将分别对它们进行聚类，并按列对比结果。在考虑投票分类器之后，我们选择每个警报的大部分结果作为最终排名。因此，我们得到了新的分类变量，表明了警报的排名水平。

特征提取是工作中最具创造性和最耗时的部分。由于以下困难而变得复杂：

一般来说，原始数据主要包含不同角度的所有分析(包括优先级，设备类型，站点等)由各种类型的分类的定性特征组成。我们最初将标称数据转换为数字(表示类别)是很自然的，但是对于“1,2,3”级别的简单转换器可能会导致原始数据实际上未指示的序列顺序。为了避免如上所述的过度解释，最好的方法是应用单热编码，通过将具有N个可能值的分类特征，编码为一个长度为N的向量，并用一个非零元素将其转换为数值形式。例如，我们建议对三个变量RGB(基本颜色)进行单热编码：

R→[1,0,0]^T

G→[0,1,0]^T

B→[0,0,1]^T

至于我们的情况，我们构建一个矩阵，对所有设备状态进行一次性编码，并添加所有测量值，包括我们刚刚在步骤5.1中生成的警报等级作为我们的预测目标。

由于需要使用所提供的所有类型的变量来预测警报的排名，因此这是监督学习的典型情况。我们将警报等级(这是从步骤1生成的确切结果)视为因变量Y，以及将其他变量视为自变量X₁,...,X_n。现在的问题是将机器学习算法拟合到具有通式的模型中：Y～X₁+X₂+...+X_n。考虑到我们已经通过一个热编码将所有特征提取到数字矩阵中，它变得相当直接的计算。其中一种通用机器学习算法应用于结果矩阵。SVM，神经网络，随机森林和Boosting等方法是用于多级分类的监督学习的流行方法。在我们的例子中，我们建议使用XGBoost库中实现的Gradient Boosting方法。

梯度提升以弱预测模型的集合形式生成预测模型，通常是决策树。它像其他增强方法一样以阶段方式构建模型，并通过允许优化任意可微分损失函数来推广它们。对于给定的数据集n例子和m特征D＝{(x_i,y_i)}(|D|＝n,x_i∈R^m,y_i∈R)，树集合模型使用K附加功能预测输出：

其中

这里l是一个可微的凸损函数，它测量预测之间的差异

正式，让

二阶近似可用于在一般设置中快速优化目标：

其中

由于在我们的情况下，N可能非常大，我们必须将训练矩阵实现为稀疏矩阵。另外，如果考虑了许多变量，那么评估计算资源的效率和成本是至关重要的，因为训练矩阵往往是大规模的。因此，需要在预测之前完成特征选择的过程，以便减小模型的尺寸。有效完成特征选择过程的典型方法之一是测量特征重要性，正确估计特征是对最终性能的贡献。特征重要性在理论上是包含在每个集合方法中的基本函数。以下是功能的典型步骤

按型号选择：

4.通过Bootstrap方法进行采样(相对小规模以确保简单快速的计算)(或者，如果效率允许，则进行K折交叉验证)。

5.按型号选择特征。为每个样本空间应用集合方法(XGBoost)以获得特征重要性。

6.计算平均特征重要性作为最终结果。按降序对要素重要性进行排序，然后选择进一步培训所需的第一个要素，然后删除其余部分。

对于故障诊断和报警检测的一般情况，我们主要考虑TPR(真阳性率)和FPR(假阳性率)以及预测精度，因此我们使用AUC作为模型精度的主要量化特征。接收器操作特性曲线或ROC曲线是示出二元分类器系统的诊断能力的图形图，因为其辨别阈值是变化的。通过在各种阈值设置下绘制真阳性率(TPR，又称敏感性，回忆)与假阳性率(FPR)的关系来创建ROC曲线。分析以直接和自然的方式与诊断决策的成本/效益分析相关联。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种通过大数据进行轨交报警数据智能管理的方法，其特征在于：它包括以下步骤：

S1确定用于警报排序的聚类；

S2特征提取；

S3建立预测模型；

S4绩效的定量评估。

2.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法，其特征在于：步骤1中，针对数据清理步骤中的确认延迟计算每个警报，延迟分为两列数据：确认的延迟和转换延迟，然后，计算它们之间的差，获得表示确切维修时间的新变量，此外，应用特征构造方法来创建包含前者的集成新变量：

Integrated_Delay＝α*Acknowledged_Delay+β*Changeback_Delay

其中α和β是数值范围内的权重，Integrated_Delay为综合延迟，Acknowledged_Delay为确认的延迟，Changeback_Delay为转换延迟；

用上述步骤创建的延迟功能来确定警报的排名；

采用各种聚类方法，使用不同的机器学习方法进行测试，对结果进行比较，首先应用DBSCAN来发现可能获得多少级别的聚类，然后应用其他聚类方法通过设置由DBSCAN指示的簇数，比较由各种聚类方法生成的这些结果并确定最佳聚类方法，或者进一步创建由某些计算公式描述的组合结果；

对几个不同的变量分别进行聚类，并按列对比结果，得到了表明了警报的排名水平的分类变量。

3.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法，其特征在于：步骤2中，应用单热编码，通过将具有N个可能值的分类特征，编码为一个长度为N的向量，并用一个非零元素将其转换为数值形式，对三个变量RGB(基本颜色)进行单热编码(One-Hot编码)：

R→[1,0,0]^T

G→[0,1,0]^T

B→[0,0,1]^T

构建一个矩阵，对所有设备状态进行一次性编码，并添加所有测量值，包括我们刚刚在步骤1中生成的警报等级作为我们的预测目标。

4.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法，其特征在于：步骤3中：将警报等级(这是从步骤1生成的确切结果)视为因变量Y，以及将其他变量视为自变量X₁,…,X_n，将机器学习算法拟合到具有通式的模型中：Y～X₁+X₂+...+X_n，将其中一种通用机器学习算法应用于结果矩阵，具体来说是使用XGBoost库中实现的GradientBoosting方法；梯度提升以弱预测模型的集合形式生成预测模型，通常是决策树，它像其他增强方法一样以阶段方式构建模型，并通过允许优化任意可微分损失函数来推广它们；对于给定的数据集n例子和m特征D＝{(x_i,y_i)}(|D|＝n,x_i∈R^m,y_i∈R)，树集合模型使用K附加功能预测输出：