CN110689140A - 一种通过大数据进行轨交报警数据智能管理的方法 - Google Patents

一种通过大数据进行轨交报警数据智能管理的方法 Download PDF

Info

Publication number
CN110689140A
CN110689140A CN201910927551.5A CN201910927551A CN110689140A CN 110689140 A CN110689140 A CN 110689140A CN 201910927551 A CN201910927551 A CN 201910927551A CN 110689140 A CN110689140 A CN 110689140A
Authority
CN
China
Prior art keywords
delay
data
alarm
model
rail transit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910927551.5A
Other languages
English (en)
Inventor
常伟
余捷全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Yuxiu Technology Co Ltd
Original Assignee
Guangdong Yuxiu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Yuxiu Technology Co Ltd filed Critical Guangdong Yuxiu Technology Co Ltd
Priority to CN201910927551.5A priority Critical patent/CN110689140A/zh
Publication of CN110689140A publication Critical patent/CN110689140A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/40Handling position reports or trackside vehicle data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本发明涉及轨道交通维护技术领域,尤其是一种通过大数据进行轨交报警数据智能管理的方法;它包括以下步骤:S1确定用于警报排序的聚类;S2特征提取;S3建立预测模型;S4绩效的定量评估;在固定时间或数量下压缩原始数据,这将提高算法的效率;根据历史信息自动调整未来警报的分数。因此,警报的类型更客观;可以自适应地更新每种类型的警报的阈值,可以预先发出警报,并且阈值随着训练样本的增加而变化。

Description

一种通过大数据进行轨交报警数据智能管理的方法
技术领域
本发明涉及轨道交通维护技术领域,尤其是一种通过大数据进行轨交报警数据智能管理的方法。
背景技术
在轨道交通中,每一天都会产生大量的报警数据。例如电池过充、电压/电流异常、热失控、人流预警等等。这些报警数据都会记录在日志中,甚至会存储在数据库中,以备后续的查看和研究。现有的报警数据管理方法类似于智能看板,例如中国专利公开了警情大数据管理系统,申请号201711025502.X,其中记载:所述警情大数据管理系统包括:数据预处理子系统,用于预先处理警情数据以减少数据错误;数据汇聚子系统,用于将多路、多种警情数据汇集并存入至数据库;数据分析子系统,用于分析处理存入至所述数据库的警情数据;数据应用子系统,用于建立基于警情数据的算法模型,多个数据仓库并行数据分析和运算;数据展示子系统,用于显示需要展示的数据和信息;监测管理子系统,用于监测所述警情大数据管理系统的正常运行;所述数据预处理子系统,数据汇聚子系统,数据应用子系统和数据展示子系统之间构成数据连接。
上述技术方案只能对海量的报警数据进行实时的排序和分类处理,而无法对未来可能出现的警报无法进行预测。
发明内容
针对现有技术的不足,本发明提供一种高效的、客观的、可以预测警报的报警数据管理方法。
本发明的技术方案为:
一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:它包括以下步骤:
S1确定用于警报排序的聚类;
S2特征提取;
S3建立预测模型;
S4绩效的定量评估。
其中,步骤1中,由于没有用于分类的标签,因此最初将其视为无监督的聚类过程。必要时,会针对数据清理步骤中的确认延迟计算每个警报。当然,延迟可以分为两列数据(两个变量):确认的延迟并改变延迟。然后,如果我们计算它们之间的差异,将获得表示确切维修时间的新变量。此外,还可以应用特征构造方法来创建包含前者的集成新变量,例如,考虑线性模型(假设前者是正相关的):
Integrated_Delay=α*Acknowledged_Delay+β*Changeback_Delay
其中α和β是数值范围内的权重,例如(0,1)。Integrated_Delay为综合延迟,Acknowledged_Delay为已经确认的延迟,Changeback_Delay为转换延迟。
我们现在考虑上面刚刚创建的延迟功能来确定警报的排名。
通常,我们可以从经典统计的角度分别分析延迟特征。例如,我们可以轻松获得均值,方差,分位数,以及偏度和峰度。通过标准化,数据将由一般分布模型近似地描绘,其可以根据某个统计标准(例如,分位数)被划分为若干区间(排名级别)。此外,我们通过特征构造创建的集成延迟也将易于分析,因为数据可以适合混合分布模型。
但是,对于大多数情况,应用机器学习方法来完成聚类更具说服力。建议采用各种聚类方法,鼓励(如果效率允许)使用不同的机器学习方法进行测试,以便对结果进行比较。作为建议的过程,我们首先应用DBSCAN(基于密度的噪声应用的空间聚类)来发现可能获得多少级别的聚类(排名),然后应用其他聚类方法(如K-means,Gaussian Mixture,Agglomerative Clustering,Birch等)通过设置由DBSCAN指示的簇数。我们比较由各种聚类方法生成的这些结果并确定最佳聚类方法,或者进一步创建由某些计算公式(例如加权平均)描述的组合结果。
考虑到我们有几个不同的变量可供分析,我们将分别对它们进行聚类,并按列对比结果。在考虑投票分类器之后,我们选择每个警报的大部分结果作为最终排名。因此,我们得到了新的分类变量,表明了警报的排名水平。
其中,步骤2中,特征提取是工作中最具创造性和最耗时的部分。由于以下困难而变得复杂:
·一般来说,原始数据主要包含不同角度的所有分析(包括优先级,设备类型,站点等)由各种类型的分类的定性特征组成。我们最初将标称数据转换为数字(表示类别)是很自然的,但是对于“1,2,3”级别的简单转换器可能会导致原始数据实际上未指示的序列顺序。
·为了避免如上所述的过度解释,最好的方法是应用单热编码,通过将具有N个可能值的分类特征,编码为一个长度为N的向量,并用一个非零元素将其转换为数值形式。
例如,我们建议对三个变量RGB(基本颜色)进行单热编码(One-Hot编码):
R→[1,0,0]T
G→[0,1,0]T
B→[0,0,1]T
显然,三个单热生成的向量是线性无关的,因此可以构建非奇异矩阵来描绘标称数据:
至于我们的情况,我们构建一个矩阵,对所有设备状态进行一次性编码,并添加所有测量值,包括我们刚刚在步骤1中生成的警报等级作为我们的预测目标。
其中,步骤3中:由于需要使用所提供的所有类型的变量来预测警报的排名,因此这是监督学习的典型情况。我们将警报等级(这是从步骤1生成的确切结果)视为因变量Y,以及将其他变量视为自变量X1,…,Xn。现在的问题是将机器学习算法拟合到具有通式的模型中:Y~X1+X2+...+Xn
考虑到我们已经通过一个热编码将所有特征提取到数字矩阵中,它变得相当直接的计算。其中一种通用机器学习算法应用于结果矩阵。SVM,神经网络,随机森林和Boosting等方法是用于多级分类的监督学习的流行方法。在我们的例子中,我们建议使用XGBoost库中实现的Gradient Boosting方法。
■XGBOOST
梯度提升以弱预测模型的集合形式生成预测模型,通常是决策树。它像其他增强方法一样以阶段方式构建模型,并通过允许优化任意可微分损失函数来推广它们。
对于给定的数据集n例子和m特征D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),树集合模型使用K附加功能预测输出:
Figure BDA0002219328950000032
其中F={f(x)=wq(x)}(q:Rm→T,w∈RT)是回归树的空间(也称为CART)。
对于给定的示例,我们将使用树中的决策规则(由q)将其分类为叶子,并通过总结相应叶子中的分数来计算最终预测(由...给出)w).要了解模型中使用的函数集,我们最小化以下正则化目标。
Figure BDA0002219328950000041
其中
Figure BDA0002219328950000042
这里l是一个可微的凸损函数,它测量预测之间的差异
Figure BDA0002219328950000043
和目标yi.第二个任期Ω惩罚模型的复杂性(回归树函数)。额外的正则化项有助于平滑最终权重以避免过度拟合。直观地,正则化目标将倾向于选择采用简单和预测函数的模型。
正式,让
Figure BDA0002219328950000044
是预测的i第一个例子t第二次迭代,我们需要添加ft尽量减少以下目标。
Figure BDA0002219328950000045
二阶近似可用于在一般设置中快速优化目标:
Figure BDA0002219328950000046
其中
Figure BDA0002219328950000047
和。
Figure BDA0002219328950000048
从技术上讲,XGBoost是Gradient Boosting的修订版,它通过惩罚损失函数的新型正则化以及计算步骤的优化。它被证明是多类分类任务中最有效的集合方法之一。
■特征选择
由于在我们的情况下,N可能非常大,我们必须将训练矩阵实现为稀疏矩阵。另外,如果考虑了许多变量,那么评估计算资源的效率和成本是至关重要的,因为训练矩阵往往是大规模的。因此,需要在预测之前完成特征选择的过程,以便减小模型的尺寸。
有效完成特征选择过程的典型方法之一是测量特征重要性,正确估计特征是对最终性能的贡献。特征重要性在理论上是包含在每个集合方法中的基本函数。以下是功能的典型步骤
按型号选择:
1.通过Bootstrap方法进行采样(相对小规模以确保简单快速的计算)(或者,如果效率允许,则进行K折交叉验证)。
2.按型号选择特征。为每个样本空间应用集合方法(XGBoost)以获得特征重要性。
3.计算平均特征重要性作为最终结果。按降序对要素重要性进行排序,然后选择进一步培训所需的第一个要素,然后删除其余部分。
其中,步骤4中:对于故障诊断和报警检测的一般情况,我们主要考虑TPR(真阳性率)和FPR(假阳性率)以及预测精度,因此我们使用AUC作为模型精度的主要量化特征。
接收器操作特性曲线或ROC曲线是示出二元分类器系统的诊断能力的图形图,因为其辨别阈值是变化的。通过在各种阈值设置下绘制真阳性率(TPR,又称敏感性,回忆)与假阳性率(FPR)的关系来创建ROC曲线。分析以直接和自然的方式与诊断决策的成本/效益分析相关联。
AUC代表“ROC曲线下面积”,值在0和1之间变化,无信息分类器产生0.5。一般等式如下:
Figure BDA0002219328950000051
其中M是阳性样本数、N是阴性样本数。越接近1,模型的性能越好。
本发明的有益效果为:本发明有三个亮点,即效率,适应性,客观性;在固定时间或数量下压缩原始数据,这将提高算法的效率;根据历史信息自动调整未来警报的分数。因此,警报的类型更客观;可以自适应地更新每种类型的警报的阈值,可以预先发出警报,并且阈值随着训练样本的增加而变化。
附图说明
图1为本发明的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
首先,创建一种用于警报排名的新型机器学习模型。由于没有用于分类的标签,因此最初将其视为无监督的聚类过程。必要时,会针对数据清理步骤中的确认延迟计算每个警报。当然,延迟可以分为两列数据(两个变量):确认的延迟并改变延迟。然后,如果我们计算它们之间的差异,将获得表示确切维修时间的新变量。此外,还可以应用特征构造方法来创建包含前者的集成新变量,例如,考虑线性模型(假设前者是正相关的):
Integrated_Delay=α*Acknowledged_Delay+β*Changeback_Delay
其中α和β是数值范围内的权重,例如(0,1)。
我们现在考虑上面刚刚创建的延迟功能来确定警报的排名。
通常,我们可以从经典统计的角度分别分析延迟特征。例如,我们可以轻松获得均值,方差,分位数,以及偏度和峰度。通过标准化,数据将由一般分布模型近似地描绘,其可以根据某个统计标准(例如,分位数)被划分为若干区间(排名级别)。此外,我们通过特征构造创建的集成延迟也将易于分析,因为数据可以适合混合分布模型。但是,对于大多数情况,应用机器学习方法来完成聚类更具说服力。建议采用各种聚类方法,鼓励(如果效率允许)使用不同的机器学习方法进行测试,以便对结果进行比较。作为建议的过程,我们首先应用DBSCAN(基于密度的噪声应用的空间聚类)来发现可能获得多少级别的聚类(排名),然后应用其他聚类方法(如K)-means,Gaussian Mixture,Agglomerative Clustering,Birch等)通过设置由DBSCAN指示的簇数。我们比较由各种聚类方法生成的这些结果并确定最佳聚类方法,或者进一步创建由某些计算公式(例如加权平均)描述的组合结果。考虑到我们有几个不同的变量可供分析,我们将分别对它们进行聚类,并按列对比结果。在考虑投票分类器之后,我们选择每个警报的大部分结果作为最终排名。因此,我们得到了新的分类变量,表明了警报的排名水平。
特征提取是工作中最具创造性和最耗时的部分。由于以下困难而变得复杂:
一般来说,原始数据主要包含不同角度的所有分析(包括优先级,设备类型,站点等)由各种类型的分类的定性特征组成。我们最初将标称数据转换为数字(表示类别)是很自然的,但是对于“1,2,3”级别的简单转换器可能会导致原始数据实际上未指示的序列顺序。为了避免如上所述的过度解释,最好的方法是应用单热编码,通过将具有N个可能值的分类特征,编码为一个长度为N的向量,并用一个非零元素将其转换为数值形式。例如,我们建议对三个变量RGB(基本颜色)进行单热编码:
R→[1,0,0]T
G→[0,1,0]T
B→[0,0,1]T
显然,三个单热生成的向量是线性无关的,因此可以构建非奇异矩阵来描绘标称数据:
Figure BDA0002219328950000061
至于我们的情况,我们构建一个矩阵,对所有设备状态进行一次性编码,并添加所有测量值,包括我们刚刚在步骤5.1中生成的警报等级作为我们的预测目标。
由于需要使用所提供的所有类型的变量来预测警报的排名,因此这是监督学习的典型情况。我们将警报等级(这是从步骤1生成的确切结果)视为因变量Y,以及将其他变量视为自变量X1,...,Xn。现在的问题是将机器学习算法拟合到具有通式的模型中:Y~X1+X2+...+Xn。考虑到我们已经通过一个热编码将所有特征提取到数字矩阵中,它变得相当直接的计算。其中一种通用机器学习算法应用于结果矩阵。SVM,神经网络,随机森林和Boosting等方法是用于多级分类的监督学习的流行方法。在我们的例子中,我们建议使用XGBoost库中实现的Gradient Boosting方法。
梯度提升以弱预测模型的集合形式生成预测模型,通常是决策树。它像其他增强方法一样以阶段方式构建模型,并通过允许优化任意可微分损失函数来推广它们。对于给定的数据集n例子和m特征D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),树集合模型使用K附加功能预测输出:
Figure BDA0002219328950000071
其中F={f(x)=wq(x)}(q:Rm→T,w∈RT)是回归树的空间(也称为CART)。
对于给定的示例,我们将使用树中的决策规则(由q)将其分类为叶子,并通过总结相应叶子中的分数来计算最终预测(由...给出)w).要了解模型中使用的函数集,我们最小化以下正则化目标。
其中
这里l是一个可微的凸损函数,它测量预测之间的差异
Figure BDA0002219328950000074
和目标yi.第二个任期Ω惩罚模型的复杂性(回归树函数)。额外的正则化项有助于平滑最终权重以避免过度拟合。直观地,正则化目标将倾向于选择采用简单和预测函数的模型。
正式,让
Figure BDA0002219328950000075
是预测的i第一个例子t第二次迭代,我们需要添加ft尽量减少以下目标。
Figure BDA0002219328950000081
二阶近似可用于在一般设置中快速优化目标:
Figure BDA0002219328950000082
其中
Figure BDA0002219328950000083
从技术上讲,XGBoost是Gradient Boosting的修订版,它通过惩罚损失函数的新型正则化以及计算步骤的优化。它被证明是多类分类任务中最有效的集合方法之一。
由于在我们的情况下,N可能非常大,我们必须将训练矩阵实现为稀疏矩阵。另外,如果考虑了许多变量,那么评估计算资源的效率和成本是至关重要的,因为训练矩阵往往是大规模的。因此,需要在预测之前完成特征选择的过程,以便减小模型的尺寸。有效完成特征选择过程的典型方法之一是测量特征重要性,正确估计特征是对最终性能的贡献。特征重要性在理论上是包含在每个集合方法中的基本函数。以下是功能的典型步骤
按型号选择:
4.通过Bootstrap方法进行采样(相对小规模以确保简单快速的计算)(或者,如果效率允许,则进行K折交叉验证)。
5.按型号选择特征。为每个样本空间应用集合方法(XGBoost)以获得特征重要性。
6.计算平均特征重要性作为最终结果。按降序对要素重要性进行排序,然后选择进一步培训所需的第一个要素,然后删除其余部分。
对于故障诊断和报警检测的一般情况,我们主要考虑TPR(真阳性率)和FPR(假阳性率)以及预测精度,因此我们使用AUC作为模型精度的主要量化特征。接收器操作特性曲线或ROC曲线是示出二元分类器系统的诊断能力的图形图,因为其辨别阈值是变化的。通过在各种阈值设置下绘制真阳性率(TPR,又称敏感性,回忆)与假阳性率(FPR)的关系来创建ROC曲线。分析以直接和自然的方式与诊断决策的成本/效益分析相关联。
AUC代表“ROC曲线下面积”,值在0和1之间变化,无信息分类器产生0.5。一般等式如下:
Figure BDA0002219328950000091
其中M是阳性样本数、N是阴性样本数。越接近1,模型的性能越好。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (5)

1.一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:它包括以下步骤:
S1确定用于警报排序的聚类;
S2特征提取;
S3建立预测模型;
S4绩效的定量评估。
2.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:步骤1中,针对数据清理步骤中的确认延迟计算每个警报,延迟分为两列数据:确认的延迟和转换延迟,然后,计算它们之间的差,获得表示确切维修时间的新变量,此外,应用特征构造方法来创建包含前者的集成新变量:
Integrated_Delay=α*Acknowledged_Delay+β*Changeback_Delay
其中α和β是数值范围内的权重,Integrated_Delay为综合延迟,Acknowledged_Delay为确认的延迟,Changeback_Delay为转换延迟;
用上述步骤创建的延迟功能来确定警报的排名;
采用各种聚类方法,使用不同的机器学习方法进行测试,对结果进行比较,首先应用DBSCAN来发现可能获得多少级别的聚类,然后应用其他聚类方法通过设置由DBSCAN指示的簇数,比较由各种聚类方法生成的这些结果并确定最佳聚类方法,或者进一步创建由某些计算公式描述的组合结果;
对几个不同的变量分别进行聚类,并按列对比结果,得到了表明了警报的排名水平的分类变量。
3.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:步骤2中,应用单热编码,通过将具有N个可能值的分类特征,编码为一个长度为N的向量,并用一个非零元素将其转换为数值形式,对三个变量RGB(基本颜色)进行单热编码(One-Hot编码):
R→[1,0,0]T
G→[0,1,0]T
B→[0,0,1]T
显然,三个单热生成的向量是线性无关的,因此可以构建非奇异矩阵来描绘标称数据:
Figure FDA0002219328940000021
构建一个矩阵,对所有设备状态进行一次性编码,并添加所有测量值,包括我们刚刚在步骤1中生成的警报等级作为我们的预测目标。
4.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:步骤3中:将警报等级(这是从步骤1生成的确切结果)视为因变量Y,以及将其他变量视为自变量X1,…,Xn,将机器学习算法拟合到具有通式的模型中:Y~X1+X2+...+Xn,将其中一种通用机器学习算法应用于结果矩阵,具体来说是使用XGBoost库中实现的GradientBoosting方法;梯度提升以弱预测模型的集合形式生成预测模型,通常是决策树,它像其他增强方法一样以阶段方式构建模型,并通过允许优化任意可微分损失函数来推广它们;对于给定的数据集n例子和m特征D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),树集合模型使用K附加功能预测输出:
Figure FDA0002219328940000022
其中F={f(x)=wq(x)}(q:Rm→T,w∈RT)是回归树的空间;
对于给定的示例,将使用树中的决策规则将其分类为叶子,并通过总结相应叶子中的分数来计算最终预测;最小化以下正则化目标:
Figure FDA0002219328940000023
其中
Figure FDA0002219328940000024
这里l是一个可微的凸损函数,它测量预测之间的差异
Figure FDA0002219328940000025
和目标yi.第二个任期Ω惩罚模型的复杂性(回归树函数);让
Figure FDA0002219328940000026
是预测的i第一个例子t第二次迭代,我们需要添加ft尽量减少以下目标;
Figure FDA0002219328940000031
二阶近似可用于在一般设置中快速优化目标:
Figure FDA0002219328940000032
其中和。
Figure FDA0002219328940000034
训练矩阵实现为稀疏矩阵,在预测之前完成特征选择的过程,以便减小模型的尺寸;
按型号选择:
1.通过Bootstrap方法进行采样;
2.按型号选择特征。为每个样本空间应用集合方法以获得特征重要性。
3.计算平均特征重要性作为最终结果。按降序对要素重要性进行排序,然后选择进一步培训所需的第一个要素,然后删除其余部分。
5.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:步骤4中:对于故障诊断和报警检测,考虑TPR(真阳性率)和FPR(假阳性率)以及预测精度,使用AUC作为模型精度的主要量化特征;
通过在各种阈值设置下绘制真阳性率(TPR,又称敏感性,回忆)与假阳性率(FPR)的关系来创建ROC曲线;分析以直接和自然的方式与诊断决策的成本/效益分析相关联;
AUC代表“ROC曲线下面积”,值在0和1之间变化,无信息分类器产生0.5;一般等式如下:
Figure FDA0002219328940000035
其中M是阳性样本数、N是阴性样本数。
CN201910927551.5A 2019-09-27 2019-09-27 一种通过大数据进行轨交报警数据智能管理的方法 Pending CN110689140A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910927551.5A CN110689140A (zh) 2019-09-27 2019-09-27 一种通过大数据进行轨交报警数据智能管理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910927551.5A CN110689140A (zh) 2019-09-27 2019-09-27 一种通过大数据进行轨交报警数据智能管理的方法

Publications (1)

Publication Number Publication Date
CN110689140A true CN110689140A (zh) 2020-01-14

Family

ID=69110753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910927551.5A Pending CN110689140A (zh) 2019-09-27 2019-09-27 一种通过大数据进行轨交报警数据智能管理的方法

Country Status (1)

Country Link
CN (1) CN110689140A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524008A (zh) * 2020-04-16 2020-08-11 天使方舟有限公司 一种规则引擎及其建模方法、建模装置及指令处理方法
CN112330073A (zh) * 2020-11-30 2021-02-05 天津大学 长距离调水工程监测数据关键效应量预测方法
CN114095338A (zh) * 2021-10-27 2022-02-25 北京思特奇信息技术股份有限公司 一种云计算平台智能预测告警的方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3026518A1 (en) * 2014-11-25 2016-06-01 ABB Technology AG Method for Root analysis of an alarm flood sequence
CN106251625A (zh) * 2016-08-18 2016-12-21 上海交通大学 大数据环境下立体城市交通路网全局状态预测方法
CN106663224A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习模型评估的交互式界面
CN107423761A (zh) * 2017-07-24 2017-12-01 清华大学 基于特征选择和机器学习的轨道机车节能优化操纵方法
US20180150758A1 (en) * 2016-11-30 2018-05-31 Here Global B.V. Method and apparatus for predictive classification of actionable network alerts
CN108805202A (zh) * 2018-06-11 2018-11-13 上海新增鼎数据科技有限公司 一种用于电解槽故障预警的机器学习方法及其应用
CN109040257A (zh) * 2018-08-09 2018-12-18 湖南江河机电自动化设备股份有限公司 一种基于大数据平台的水电站智能报警系统
CN109800875A (zh) * 2019-01-08 2019-05-24 华南理工大学 基于粒子群优化和降噪稀疏编码机的化工故障检测方法
CN109961240A (zh) * 2019-04-08 2019-07-02 陈鹏 一种对监控车辆综合风险的判断方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663224A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习模型评估的交互式界面
EP3026518A1 (en) * 2014-11-25 2016-06-01 ABB Technology AG Method for Root analysis of an alarm flood sequence
CN106251625A (zh) * 2016-08-18 2016-12-21 上海交通大学 大数据环境下立体城市交通路网全局状态预测方法
US20180150758A1 (en) * 2016-11-30 2018-05-31 Here Global B.V. Method and apparatus for predictive classification of actionable network alerts
CN107423761A (zh) * 2017-07-24 2017-12-01 清华大学 基于特征选择和机器学习的轨道机车节能优化操纵方法
CN108805202A (zh) * 2018-06-11 2018-11-13 上海新增鼎数据科技有限公司 一种用于电解槽故障预警的机器学习方法及其应用
CN109040257A (zh) * 2018-08-09 2018-12-18 湖南江河机电自动化设备股份有限公司 一种基于大数据平台的水电站智能报警系统
CN109800875A (zh) * 2019-01-08 2019-05-24 华南理工大学 基于粒子群优化和降噪稀疏编码机的化工故障检测方法
CN109961240A (zh) * 2019-04-08 2019-07-02 陈鹏 一种对监控车辆综合风险的判断方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HU W 等: "Framework for a smart data analytics platform towards process monitoring and alarm management", 《COMPUTERS & CHEMICAL ENGINEERING》, vol. 114, 9 June 2018 (2018-06-09), pages 225 - 244, XP055715297, DOI: 10.1016/j.compchemeng.2017.10.010 *
ZHANG DAHAI 等: "A Data-Driven Design for Fault Detection of Wind Turbines Using Random Forests and XGboost", 《IEEE ACCESS》, vol. 06, 2 April 2018 (2018-04-02), pages 21020 - 21031 *
国倪震 等: "面向电力大数据日志分析平台的异常监测集成预测算法", 《南京理工大学学报》, vol. 41, no. 05, 24 November 2017 (2017-11-24), pages 634 - 645 *
张玉涛: "石化工业关联报警分析和抑制策略研究", 《中国优秀硕士学位论文全文数据库 (工程科技Ⅰ辑)》, no. 04, 15 April 2018 (2018-04-15), pages 019 - 822 *
陈智鹏 等: "基于遗传KNN聚类的机械加工故障趋势预测模型", 《机械与电子》, vol. 37, no. 05, 24 May 2019 (2019-05-24), pages 59 - 62 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524008A (zh) * 2020-04-16 2020-08-11 天使方舟有限公司 一种规则引擎及其建模方法、建模装置及指令处理方法
CN111524008B (zh) * 2020-04-16 2023-06-06 Gotcex 有限公司 一种规则引擎及其建模方法、建模装置及指令处理方法
CN112330073A (zh) * 2020-11-30 2021-02-05 天津大学 长距离调水工程监测数据关键效应量预测方法
CN114095338A (zh) * 2021-10-27 2022-02-25 北京思特奇信息技术股份有限公司 一种云计算平台智能预测告警的方法及系统

Similar Documents

Publication Publication Date Title
CN110263846B (zh) 基于故障数据深度挖掘及学习的故障诊断方法
US10877863B2 (en) Automatic prediction system for server failure and method of automatically predicting server failure
CN112085947A (zh) 一种基于深度学习和模糊聚类的交通拥堵预测方法
CN107563425A (zh) 一种基于随机森林的隧道运营状态感知模型的建立方法
CN110717535B (zh) 一种基于数据分析处理系统的自动建模方法及系统
CN110689140A (zh) 一种通过大数据进行轨交报警数据智能管理的方法
CN113762329A (zh) 一种大型轧机状态预测模型的构建方法及构建系统
CN111028100A (zh) 考虑气象因素的精细化短期负荷预测方法、装置及介质
CN112270355A (zh) 基于大数据技术与sae-gru的主动安全预测方法
CN112330067B (zh) 基于区块链的金融大数据分析系统
CN111950660A (zh) 一种人工智能训练平台的告警预测方法及装置
CN112288034A (zh) 一种无线传感器网络半监督在线异常检测方法
Alsayadi et al. Improving the regression of communities and crime using ensemble of machine learning models
CN114863170A (zh) 一种基于深度学习的新能源车电池自燃预警方法及装置
CN107016416A (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN113033898A (zh) 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及系统
CN114493641A (zh) 信息显示方法、装置、电子设备和计算机可读介质
CN116431346A (zh) 一种用于电子设备主存储器容量的补偿方法
CN116956702A (zh) 一种用电安全预警方法、介质及系统
CN115964504B (zh) 一种食品安全风险预测方法及系统
CN115616408A (zh) 电池热管理数据处理方法及系统
CN114726751A (zh) 资源质量监控的智能化预警方法、系统、设备和存储介质
CN113884807A (zh) 基于随机森林和多层架构聚类的配电网故障预测方法
CN112580260A (zh) 管网水流量的预测方法、装置以及计算机可读存储介质
Wang et al. Integrated self-consistent macro-micro traffic flow modeling and calibration framework based on trajectory data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination