CN110689140A - 一种通过大数据进行轨交报警数据智能管理的方法 - Google Patents
一种通过大数据进行轨交报警数据智能管理的方法 Download PDFInfo
- Publication number
- CN110689140A CN110689140A CN201910927551.5A CN201910927551A CN110689140A CN 110689140 A CN110689140 A CN 110689140A CN 201910927551 A CN201910927551 A CN 201910927551A CN 110689140 A CN110689140 A CN 110689140A
- Authority
- CN
- China
- Prior art keywords
- delay
- data
- alarm
- model
- rail transit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000007726 management method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 241000022852 Letis Species 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 claims description 3
- 230000020169 heat generation Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000008439 repair process Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims 1
- 238000012423 maintenance Methods 0.000 abstract description 2
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 238000013523 data management Methods 0.000 description 5
- 230000001934 delay Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 235000018185 Betula X alpestris Nutrition 0.000 description 2
- 235000018212 Betula X uliginosa Nutrition 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000004579 scanning voltage microscopy Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B61—RAILWAYS
- B61L—GUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
- B61L27/00—Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
- B61L27/40—Handling position reports or trackside vehicle data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Abstract
本发明涉及轨道交通维护技术领域,尤其是一种通过大数据进行轨交报警数据智能管理的方法;它包括以下步骤:S1确定用于警报排序的聚类;S2特征提取;S3建立预测模型;S4绩效的定量评估;在固定时间或数量下压缩原始数据,这将提高算法的效率;根据历史信息自动调整未来警报的分数。因此,警报的类型更客观;可以自适应地更新每种类型的警报的阈值,可以预先发出警报,并且阈值随着训练样本的增加而变化。
Description
技术领域
本发明涉及轨道交通维护技术领域,尤其是一种通过大数据进行轨交报警数据智能管理的方法。
背景技术
在轨道交通中,每一天都会产生大量的报警数据。例如电池过充、电压/电流异常、热失控、人流预警等等。这些报警数据都会记录在日志中,甚至会存储在数据库中,以备后续的查看和研究。现有的报警数据管理方法类似于智能看板,例如中国专利公开了警情大数据管理系统,申请号201711025502.X,其中记载:所述警情大数据管理系统包括:数据预处理子系统,用于预先处理警情数据以减少数据错误;数据汇聚子系统,用于将多路、多种警情数据汇集并存入至数据库;数据分析子系统,用于分析处理存入至所述数据库的警情数据;数据应用子系统,用于建立基于警情数据的算法模型,多个数据仓库并行数据分析和运算;数据展示子系统,用于显示需要展示的数据和信息;监测管理子系统,用于监测所述警情大数据管理系统的正常运行;所述数据预处理子系统,数据汇聚子系统,数据应用子系统和数据展示子系统之间构成数据连接。
上述技术方案只能对海量的报警数据进行实时的排序和分类处理,而无法对未来可能出现的警报无法进行预测。
发明内容
针对现有技术的不足,本发明提供一种高效的、客观的、可以预测警报的报警数据管理方法。
本发明的技术方案为:
一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:它包括以下步骤:
S1确定用于警报排序的聚类;
S2特征提取;
S3建立预测模型;
S4绩效的定量评估。
其中,步骤1中,由于没有用于分类的标签,因此最初将其视为无监督的聚类过程。必要时,会针对数据清理步骤中的确认延迟计算每个警报。当然,延迟可以分为两列数据(两个变量):确认的延迟并改变延迟。然后,如果我们计算它们之间的差异,将获得表示确切维修时间的新变量。此外,还可以应用特征构造方法来创建包含前者的集成新变量,例如,考虑线性模型(假设前者是正相关的):
Integrated_Delay=α*Acknowledged_Delay+β*Changeback_Delay
其中α和β是数值范围内的权重,例如(0,1)。Integrated_Delay为综合延迟,Acknowledged_Delay为已经确认的延迟,Changeback_Delay为转换延迟。
我们现在考虑上面刚刚创建的延迟功能来确定警报的排名。
通常,我们可以从经典统计的角度分别分析延迟特征。例如,我们可以轻松获得均值,方差,分位数,以及偏度和峰度。通过标准化,数据将由一般分布模型近似地描绘,其可以根据某个统计标准(例如,分位数)被划分为若干区间(排名级别)。此外,我们通过特征构造创建的集成延迟也将易于分析,因为数据可以适合混合分布模型。
但是,对于大多数情况,应用机器学习方法来完成聚类更具说服力。建议采用各种聚类方法,鼓励(如果效率允许)使用不同的机器学习方法进行测试,以便对结果进行比较。作为建议的过程,我们首先应用DBSCAN(基于密度的噪声应用的空间聚类)来发现可能获得多少级别的聚类(排名),然后应用其他聚类方法(如K-means,Gaussian Mixture,Agglomerative Clustering,Birch等)通过设置由DBSCAN指示的簇数。我们比较由各种聚类方法生成的这些结果并确定最佳聚类方法,或者进一步创建由某些计算公式(例如加权平均)描述的组合结果。
考虑到我们有几个不同的变量可供分析,我们将分别对它们进行聚类,并按列对比结果。在考虑投票分类器之后,我们选择每个警报的大部分结果作为最终排名。因此,我们得到了新的分类变量,表明了警报的排名水平。
其中,步骤2中,特征提取是工作中最具创造性和最耗时的部分。由于以下困难而变得复杂:
·一般来说,原始数据主要包含不同角度的所有分析(包括优先级,设备类型,站点等)由各种类型的分类的定性特征组成。我们最初将标称数据转换为数字(表示类别)是很自然的,但是对于“1,2,3”级别的简单转换器可能会导致原始数据实际上未指示的序列顺序。
·为了避免如上所述的过度解释,最好的方法是应用单热编码,通过将具有N个可能值的分类特征,编码为一个长度为N的向量,并用一个非零元素将其转换为数值形式。
例如,我们建议对三个变量RGB(基本颜色)进行单热编码(One-Hot编码):
R→[1,0,0]T
G→[0,1,0]T
B→[0,0,1]T
显然,三个单热生成的向量是线性无关的,因此可以构建非奇异矩阵来描绘标称数据:
至于我们的情况,我们构建一个矩阵,对所有设备状态进行一次性编码,并添加所有测量值,包括我们刚刚在步骤1中生成的警报等级作为我们的预测目标。
其中,步骤3中:由于需要使用所提供的所有类型的变量来预测警报的排名,因此这是监督学习的典型情况。我们将警报等级(这是从步骤1生成的确切结果)视为因变量Y,以及将其他变量视为自变量X1,…,Xn。现在的问题是将机器学习算法拟合到具有通式的模型中:Y~X1+X2+...+Xn。
考虑到我们已经通过一个热编码将所有特征提取到数字矩阵中,它变得相当直接的计算。其中一种通用机器学习算法应用于结果矩阵。SVM,神经网络,随机森林和Boosting等方法是用于多级分类的监督学习的流行方法。在我们的例子中,我们建议使用XGBoost库中实现的Gradient Boosting方法。
■XGBOOST
梯度提升以弱预测模型的集合形式生成预测模型,通常是决策树。它像其他增强方法一样以阶段方式构建模型,并通过允许优化任意可微分损失函数来推广它们。
对于给定的数据集n例子和m特征D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),树集合模型使用K附加功能预测输出:
其中F={f(x)=wq(x)}(q:Rm→T,w∈RT)是回归树的空间(也称为CART)。
对于给定的示例,我们将使用树中的决策规则(由q)将其分类为叶子,并通过总结相应叶子中的分数来计算最终预测(由...给出)w).要了解模型中使用的函数集,我们最小化以下正则化目标。
其中这里l是一个可微的凸损函数,它测量预测之间的差异和目标yi.第二个任期Ω惩罚模型的复杂性(回归树函数)。额外的正则化项有助于平滑最终权重以避免过度拟合。直观地,正则化目标将倾向于选择采用简单和预测函数的模型。
二阶近似可用于在一般设置中快速优化目标:
从技术上讲,XGBoost是Gradient Boosting的修订版,它通过惩罚损失函数的新型正则化以及计算步骤的优化。它被证明是多类分类任务中最有效的集合方法之一。
■特征选择
由于在我们的情况下,N可能非常大,我们必须将训练矩阵实现为稀疏矩阵。另外,如果考虑了许多变量,那么评估计算资源的效率和成本是至关重要的,因为训练矩阵往往是大规模的。因此,需要在预测之前完成特征选择的过程,以便减小模型的尺寸。
有效完成特征选择过程的典型方法之一是测量特征重要性,正确估计特征是对最终性能的贡献。特征重要性在理论上是包含在每个集合方法中的基本函数。以下是功能的典型步骤
按型号选择:
1.通过Bootstrap方法进行采样(相对小规模以确保简单快速的计算)(或者,如果效率允许,则进行K折交叉验证)。
2.按型号选择特征。为每个样本空间应用集合方法(XGBoost)以获得特征重要性。
3.计算平均特征重要性作为最终结果。按降序对要素重要性进行排序,然后选择进一步培训所需的第一个要素,然后删除其余部分。
其中,步骤4中:对于故障诊断和报警检测的一般情况,我们主要考虑TPR(真阳性率)和FPR(假阳性率)以及预测精度,因此我们使用AUC作为模型精度的主要量化特征。
接收器操作特性曲线或ROC曲线是示出二元分类器系统的诊断能力的图形图,因为其辨别阈值是变化的。通过在各种阈值设置下绘制真阳性率(TPR,又称敏感性,回忆)与假阳性率(FPR)的关系来创建ROC曲线。分析以直接和自然的方式与诊断决策的成本/效益分析相关联。
AUC代表“ROC曲线下面积”,值在0和1之间变化,无信息分类器产生0.5。一般等式如下:
其中M是阳性样本数、N是阴性样本数。越接近1,模型的性能越好。
本发明的有益效果为:本发明有三个亮点,即效率,适应性,客观性;在固定时间或数量下压缩原始数据,这将提高算法的效率;根据历史信息自动调整未来警报的分数。因此,警报的类型更客观;可以自适应地更新每种类型的警报的阈值,可以预先发出警报,并且阈值随着训练样本的增加而变化。
附图说明
图1为本发明的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
首先,创建一种用于警报排名的新型机器学习模型。由于没有用于分类的标签,因此最初将其视为无监督的聚类过程。必要时,会针对数据清理步骤中的确认延迟计算每个警报。当然,延迟可以分为两列数据(两个变量):确认的延迟并改变延迟。然后,如果我们计算它们之间的差异,将获得表示确切维修时间的新变量。此外,还可以应用特征构造方法来创建包含前者的集成新变量,例如,考虑线性模型(假设前者是正相关的):
Integrated_Delay=α*Acknowledged_Delay+β*Changeback_Delay
其中α和β是数值范围内的权重,例如(0,1)。
我们现在考虑上面刚刚创建的延迟功能来确定警报的排名。
通常,我们可以从经典统计的角度分别分析延迟特征。例如,我们可以轻松获得均值,方差,分位数,以及偏度和峰度。通过标准化,数据将由一般分布模型近似地描绘,其可以根据某个统计标准(例如,分位数)被划分为若干区间(排名级别)。此外,我们通过特征构造创建的集成延迟也将易于分析,因为数据可以适合混合分布模型。但是,对于大多数情况,应用机器学习方法来完成聚类更具说服力。建议采用各种聚类方法,鼓励(如果效率允许)使用不同的机器学习方法进行测试,以便对结果进行比较。作为建议的过程,我们首先应用DBSCAN(基于密度的噪声应用的空间聚类)来发现可能获得多少级别的聚类(排名),然后应用其他聚类方法(如K)-means,Gaussian Mixture,Agglomerative Clustering,Birch等)通过设置由DBSCAN指示的簇数。我们比较由各种聚类方法生成的这些结果并确定最佳聚类方法,或者进一步创建由某些计算公式(例如加权平均)描述的组合结果。考虑到我们有几个不同的变量可供分析,我们将分别对它们进行聚类,并按列对比结果。在考虑投票分类器之后,我们选择每个警报的大部分结果作为最终排名。因此,我们得到了新的分类变量,表明了警报的排名水平。
特征提取是工作中最具创造性和最耗时的部分。由于以下困难而变得复杂:
一般来说,原始数据主要包含不同角度的所有分析(包括优先级,设备类型,站点等)由各种类型的分类的定性特征组成。我们最初将标称数据转换为数字(表示类别)是很自然的,但是对于“1,2,3”级别的简单转换器可能会导致原始数据实际上未指示的序列顺序。为了避免如上所述的过度解释,最好的方法是应用单热编码,通过将具有N个可能值的分类特征,编码为一个长度为N的向量,并用一个非零元素将其转换为数值形式。例如,我们建议对三个变量RGB(基本颜色)进行单热编码:
R→[1,0,0]T
G→[0,1,0]T
B→[0,0,1]T
显然,三个单热生成的向量是线性无关的,因此可以构建非奇异矩阵来描绘标称数据:
至于我们的情况,我们构建一个矩阵,对所有设备状态进行一次性编码,并添加所有测量值,包括我们刚刚在步骤5.1中生成的警报等级作为我们的预测目标。
由于需要使用所提供的所有类型的变量来预测警报的排名,因此这是监督学习的典型情况。我们将警报等级(这是从步骤1生成的确切结果)视为因变量Y,以及将其他变量视为自变量X1,...,Xn。现在的问题是将机器学习算法拟合到具有通式的模型中:Y~X1+X2+...+Xn。考虑到我们已经通过一个热编码将所有特征提取到数字矩阵中,它变得相当直接的计算。其中一种通用机器学习算法应用于结果矩阵。SVM,神经网络,随机森林和Boosting等方法是用于多级分类的监督学习的流行方法。在我们的例子中,我们建议使用XGBoost库中实现的Gradient Boosting方法。
梯度提升以弱预测模型的集合形式生成预测模型,通常是决策树。它像其他增强方法一样以阶段方式构建模型,并通过允许优化任意可微分损失函数来推广它们。对于给定的数据集n例子和m特征D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),树集合模型使用K附加功能预测输出:
其中F={f(x)=wq(x)}(q:Rm→T,w∈RT)是回归树的空间(也称为CART)。
对于给定的示例,我们将使用树中的决策规则(由q)将其分类为叶子,并通过总结相应叶子中的分数来计算最终预测(由...给出)w).要了解模型中使用的函数集,我们最小化以下正则化目标。
其中
这里l是一个可微的凸损函数,它测量预测之间的差异和目标yi.第二个任期Ω惩罚模型的复杂性(回归树函数)。额外的正则化项有助于平滑最终权重以避免过度拟合。直观地,正则化目标将倾向于选择采用简单和预测函数的模型。
二阶近似可用于在一般设置中快速优化目标:
从技术上讲,XGBoost是Gradient Boosting的修订版,它通过惩罚损失函数的新型正则化以及计算步骤的优化。它被证明是多类分类任务中最有效的集合方法之一。
由于在我们的情况下,N可能非常大,我们必须将训练矩阵实现为稀疏矩阵。另外,如果考虑了许多变量,那么评估计算资源的效率和成本是至关重要的,因为训练矩阵往往是大规模的。因此,需要在预测之前完成特征选择的过程,以便减小模型的尺寸。有效完成特征选择过程的典型方法之一是测量特征重要性,正确估计特征是对最终性能的贡献。特征重要性在理论上是包含在每个集合方法中的基本函数。以下是功能的典型步骤
按型号选择:
4.通过Bootstrap方法进行采样(相对小规模以确保简单快速的计算)(或者,如果效率允许,则进行K折交叉验证)。
5.按型号选择特征。为每个样本空间应用集合方法(XGBoost)以获得特征重要性。
6.计算平均特征重要性作为最终结果。按降序对要素重要性进行排序,然后选择进一步培训所需的第一个要素,然后删除其余部分。
对于故障诊断和报警检测的一般情况,我们主要考虑TPR(真阳性率)和FPR(假阳性率)以及预测精度,因此我们使用AUC作为模型精度的主要量化特征。接收器操作特性曲线或ROC曲线是示出二元分类器系统的诊断能力的图形图,因为其辨别阈值是变化的。通过在各种阈值设置下绘制真阳性率(TPR,又称敏感性,回忆)与假阳性率(FPR)的关系来创建ROC曲线。分析以直接和自然的方式与诊断决策的成本/效益分析相关联。
AUC代表“ROC曲线下面积”,值在0和1之间变化,无信息分类器产生0.5。一般等式如下:
其中M是阳性样本数、N是阴性样本数。越接近1,模型的性能越好。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (5)
1.一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:它包括以下步骤:
S1确定用于警报排序的聚类;
S2特征提取;
S3建立预测模型;
S4绩效的定量评估。
2.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:步骤1中,针对数据清理步骤中的确认延迟计算每个警报,延迟分为两列数据:确认的延迟和转换延迟,然后,计算它们之间的差,获得表示确切维修时间的新变量,此外,应用特征构造方法来创建包含前者的集成新变量:
Integrated_Delay=α*Acknowledged_Delay+β*Changeback_Delay
其中α和β是数值范围内的权重,Integrated_Delay为综合延迟,Acknowledged_Delay为确认的延迟,Changeback_Delay为转换延迟;
用上述步骤创建的延迟功能来确定警报的排名;
采用各种聚类方法,使用不同的机器学习方法进行测试,对结果进行比较,首先应用DBSCAN来发现可能获得多少级别的聚类,然后应用其他聚类方法通过设置由DBSCAN指示的簇数,比较由各种聚类方法生成的这些结果并确定最佳聚类方法,或者进一步创建由某些计算公式描述的组合结果;
对几个不同的变量分别进行聚类,并按列对比结果,得到了表明了警报的排名水平的分类变量。
4.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:步骤3中:将警报等级(这是从步骤1生成的确切结果)视为因变量Y,以及将其他变量视为自变量X1,…,Xn,将机器学习算法拟合到具有通式的模型中:Y~X1+X2+...+Xn,将其中一种通用机器学习算法应用于结果矩阵,具体来说是使用XGBoost库中实现的GradientBoosting方法;梯度提升以弱预测模型的集合形式生成预测模型,通常是决策树,它像其他增强方法一样以阶段方式构建模型,并通过允许优化任意可微分损失函数来推广它们;对于给定的数据集n例子和m特征D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),树集合模型使用K附加功能预测输出:
其中F={f(x)=wq(x)}(q:Rm→T,w∈RT)是回归树的空间;
对于给定的示例,将使用树中的决策规则将其分类为叶子,并通过总结相应叶子中的分数来计算最终预测;最小化以下正则化目标:
二阶近似可用于在一般设置中快速优化目标:
训练矩阵实现为稀疏矩阵,在预测之前完成特征选择的过程,以便减小模型的尺寸;
按型号选择:
1.通过Bootstrap方法进行采样;
2.按型号选择特征。为每个样本空间应用集合方法以获得特征重要性。
3.计算平均特征重要性作为最终结果。按降序对要素重要性进行排序,然后选择进一步培训所需的第一个要素,然后删除其余部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910927551.5A CN110689140A (zh) | 2019-09-27 | 2019-09-27 | 一种通过大数据进行轨交报警数据智能管理的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910927551.5A CN110689140A (zh) | 2019-09-27 | 2019-09-27 | 一种通过大数据进行轨交报警数据智能管理的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110689140A true CN110689140A (zh) | 2020-01-14 |
Family
ID=69110753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910927551.5A Pending CN110689140A (zh) | 2019-09-27 | 2019-09-27 | 一种通过大数据进行轨交报警数据智能管理的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110689140A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524008A (zh) * | 2020-04-16 | 2020-08-11 | 天使方舟有限公司 | 一种规则引擎及其建模方法、建模装置及指令处理方法 |
CN112330073A (zh) * | 2020-11-30 | 2021-02-05 | 天津大学 | 长距离调水工程监测数据关键效应量预测方法 |
CN114095338A (zh) * | 2021-10-27 | 2022-02-25 | 北京思特奇信息技术股份有限公司 | 一种云计算平台智能预测告警的方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3026518A1 (en) * | 2014-11-25 | 2016-06-01 | ABB Technology AG | Method for Root analysis of an alarm flood sequence |
CN106251625A (zh) * | 2016-08-18 | 2016-12-21 | 上海交通大学 | 大数据环境下立体城市交通路网全局状态预测方法 |
CN106663224A (zh) * | 2014-06-30 | 2017-05-10 | 亚马逊科技公司 | 用于机器学习模型评估的交互式界面 |
CN107423761A (zh) * | 2017-07-24 | 2017-12-01 | 清华大学 | 基于特征选择和机器学习的轨道机车节能优化操纵方法 |
US20180150758A1 (en) * | 2016-11-30 | 2018-05-31 | Here Global B.V. | Method and apparatus for predictive classification of actionable network alerts |
CN108805202A (zh) * | 2018-06-11 | 2018-11-13 | 上海新增鼎数据科技有限公司 | 一种用于电解槽故障预警的机器学习方法及其应用 |
CN109040257A (zh) * | 2018-08-09 | 2018-12-18 | 湖南江河机电自动化设备股份有限公司 | 一种基于大数据平台的水电站智能报警系统 |
CN109800875A (zh) * | 2019-01-08 | 2019-05-24 | 华南理工大学 | 基于粒子群优化和降噪稀疏编码机的化工故障检测方法 |
CN109961240A (zh) * | 2019-04-08 | 2019-07-02 | 陈鹏 | 一种对监控车辆综合风险的判断方法 |
-
2019
- 2019-09-27 CN CN201910927551.5A patent/CN110689140A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663224A (zh) * | 2014-06-30 | 2017-05-10 | 亚马逊科技公司 | 用于机器学习模型评估的交互式界面 |
EP3026518A1 (en) * | 2014-11-25 | 2016-06-01 | ABB Technology AG | Method for Root analysis of an alarm flood sequence |
CN106251625A (zh) * | 2016-08-18 | 2016-12-21 | 上海交通大学 | 大数据环境下立体城市交通路网全局状态预测方法 |
US20180150758A1 (en) * | 2016-11-30 | 2018-05-31 | Here Global B.V. | Method and apparatus for predictive classification of actionable network alerts |
CN107423761A (zh) * | 2017-07-24 | 2017-12-01 | 清华大学 | 基于特征选择和机器学习的轨道机车节能优化操纵方法 |
CN108805202A (zh) * | 2018-06-11 | 2018-11-13 | 上海新增鼎数据科技有限公司 | 一种用于电解槽故障预警的机器学习方法及其应用 |
CN109040257A (zh) * | 2018-08-09 | 2018-12-18 | 湖南江河机电自动化设备股份有限公司 | 一种基于大数据平台的水电站智能报警系统 |
CN109800875A (zh) * | 2019-01-08 | 2019-05-24 | 华南理工大学 | 基于粒子群优化和降噪稀疏编码机的化工故障检测方法 |
CN109961240A (zh) * | 2019-04-08 | 2019-07-02 | 陈鹏 | 一种对监控车辆综合风险的判断方法 |
Non-Patent Citations (5)
Title |
---|
HU W 等: "Framework for a smart data analytics platform towards process monitoring and alarm management", 《COMPUTERS & CHEMICAL ENGINEERING》, vol. 114, 9 June 2018 (2018-06-09), pages 225 - 244, XP055715297, DOI: 10.1016/j.compchemeng.2017.10.010 * |
ZHANG DAHAI 等: "A Data-Driven Design for Fault Detection of Wind Turbines Using Random Forests and XGboost", 《IEEE ACCESS》, vol. 06, 2 April 2018 (2018-04-02), pages 21020 - 21031 * |
国倪震 等: "面向电力大数据日志分析平台的异常监测集成预测算法", 《南京理工大学学报》, vol. 41, no. 05, 24 November 2017 (2017-11-24), pages 634 - 645 * |
张玉涛: "石化工业关联报警分析和抑制策略研究", 《中国优秀硕士学位论文全文数据库 (工程科技Ⅰ辑)》, no. 04, 15 April 2018 (2018-04-15), pages 019 - 822 * |
陈智鹏 等: "基于遗传KNN聚类的机械加工故障趋势预测模型", 《机械与电子》, vol. 37, no. 05, 24 May 2019 (2019-05-24), pages 59 - 62 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524008A (zh) * | 2020-04-16 | 2020-08-11 | 天使方舟有限公司 | 一种规则引擎及其建模方法、建模装置及指令处理方法 |
CN111524008B (zh) * | 2020-04-16 | 2023-06-06 | Gotcex 有限公司 | 一种规则引擎及其建模方法、建模装置及指令处理方法 |
CN112330073A (zh) * | 2020-11-30 | 2021-02-05 | 天津大学 | 长距离调水工程监测数据关键效应量预测方法 |
CN114095338A (zh) * | 2021-10-27 | 2022-02-25 | 北京思特奇信息技术股份有限公司 | 一种云计算平台智能预测告警的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263846B (zh) | 基于故障数据深度挖掘及学习的故障诊断方法 | |
US10877863B2 (en) | Automatic prediction system for server failure and method of automatically predicting server failure | |
CN112085947A (zh) | 一种基于深度学习和模糊聚类的交通拥堵预测方法 | |
CN107563425A (zh) | 一种基于随机森林的隧道运营状态感知模型的建立方法 | |
CN110717535B (zh) | 一种基于数据分析处理系统的自动建模方法及系统 | |
CN110689140A (zh) | 一种通过大数据进行轨交报警数据智能管理的方法 | |
CN113762329A (zh) | 一种大型轧机状态预测模型的构建方法及构建系统 | |
CN111028100A (zh) | 考虑气象因素的精细化短期负荷预测方法、装置及介质 | |
CN112270355A (zh) | 基于大数据技术与sae-gru的主动安全预测方法 | |
CN112330067B (zh) | 基于区块链的金融大数据分析系统 | |
CN111950660A (zh) | 一种人工智能训练平台的告警预测方法及装置 | |
CN112288034A (zh) | 一种无线传感器网络半监督在线异常检测方法 | |
Alsayadi et al. | Improving the regression of communities and crime using ensemble of machine learning models | |
CN114863170A (zh) | 一种基于深度学习的新能源车电池自燃预警方法及装置 | |
CN107016416A (zh) | 基于邻域粗糙集和pca融合的数据分类预测方法 | |
CN113033898A (zh) | 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及系统 | |
CN114493641A (zh) | 信息显示方法、装置、电子设备和计算机可读介质 | |
CN116431346A (zh) | 一种用于电子设备主存储器容量的补偿方法 | |
CN116956702A (zh) | 一种用电安全预警方法、介质及系统 | |
CN115964504B (zh) | 一种食品安全风险预测方法及系统 | |
CN115616408A (zh) | 电池热管理数据处理方法及系统 | |
CN114726751A (zh) | 资源质量监控的智能化预警方法、系统、设备和存储介质 | |
CN113884807A (zh) | 基于随机森林和多层架构聚类的配电网故障预测方法 | |
CN112580260A (zh) | 管网水流量的预测方法、装置以及计算机可读存储介质 | |
Wang et al. | Integrated self-consistent macro-micro traffic flow modeling and calibration framework based on trajectory data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |