CN112990329A - 一种系统异常诊断方法和装置 - Google Patents

一种系统异常诊断方法和装置 Download PDF

Info

Publication number
CN112990329A
CN112990329A CN202110325710.1A CN202110325710A CN112990329A CN 112990329 A CN112990329 A CN 112990329A CN 202110325710 A CN202110325710 A CN 202110325710A CN 112990329 A CN112990329 A CN 112990329A
Authority
CN
China
Prior art keywords
data
training
classification
characteristic data
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110325710.1A
Other languages
English (en)
Other versions
CN112990329B (zh
Inventor
钱敏
李彦夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110325710.1A priority Critical patent/CN112990329B/zh
Publication of CN112990329A publication Critical patent/CN112990329A/zh
Application granted granted Critical
Publication of CN112990329B publication Critical patent/CN112990329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本申请实施例公开了一种系统异常诊断方法和装置,该方法包括:采集系统监控数据并对系统监控数据进行预处理获取第一数据;从第一数据选出第一特征数据;将第一特征数据按照迭代的顺序依次输入聚类模型中,根据聚类模型输出结果判断第一特征数据是否属于预设的目标类集合;当第一特征数据不属于目标类集合时,判定当前系统处于正常状态;当第一特征数据属于目标类集合时,将第一特征数据输入预先训练好的分类模型中,根据分类模型的分类结果判断当前系统是否处于异常状态;分类模型是以相对平衡的数据集作为分类训练集对预设的分类器进行训练获得的。通过该实施例方案,实现了准确识别高铁列车关键子系统的异常状态,保障了高铁列车的安全运行。

Description

一种系统异常诊断方法和装置
技术领域
本文涉及高铁列车关键子系统异常诊断技术领域,尤指一种系统异常诊断方法和装置。
背景技术
高速铁路列车简称高铁列车,通常指能够以200km/h以上最高速度行驶的铁路列车,是一种现代化的高速交通工具,可以大幅提高列车旅行速度从而提高火车运输效率。高铁列车快捷舒适、平稳安全、节能环保,深受当代人们的欢迎,近十年来,高速铁路在世界范围内得到了迅速的发展,并在日常交通中得到了广泛的应用,世界各国都大力发展新型高铁列车来满足日益增长的出行需求。高铁列车相比于汽车、普通火车等交通工具,发生事故的概率是非常小的,但是一旦高铁列车发生致命事故,将会造成巨大的经济损失和人员伤亡。
高铁列车的信号系统、制动系统等关键子系统故障是造成这些悲剧的主要原因之一,如果能够对高铁列车关键子系统进行准确的异常诊断,将不仅能预先阻止单一的运行中断,而且还能在网络层面上降低异常的影响,从而提高铁路网的可靠性,极大地降低高铁列车事故发生的风险。
高铁列车的关键子系统的异常诊断可以认为是一个二分类问题,需要建立传感器监控数据和系统异常之间的分类模型,在训练阶段,根据高铁列车上多种传感器的历史监控数据和历史事故数据,完成分类模型的训练。在测试过程中,利用高铁列车上相关传感器的实时监控数据和训练好的分类模型,快速判断当前时刻高铁列车的关键子系统是否存在异常,并根据分类结果进行预警和处理。这一过程是一个多变量,高度非平衡的复杂过程,在高铁列车的实际运行过程中发生事故的概率是非常小的,往往经过几年的正常运行都不会有任何异常发生,所以历史监控数据中的正常运行数据的比例要远远高于异常数据。因此,根据高维、高度非平衡的历史监控数据建立一个准确可靠的异常诊断模型,准确识别混合在数量庞大的正常运行数据中的极少数异常监控数据,及时有效的诊断高铁列车的健康状况对于保障高铁列车安全运行,是一件意义重大但是极具挑战的任务。
发明内容
本申请实施例提供了一种系统异常诊断方法和装置,能够准确识别高铁列车关键子系统的异常状态,保障高铁列车的安全运行。
本申请实施例提供了一种系统异常诊断方法,所述方法可以包括:
采集系统监控数据,并对所述系统监控数据进行预处理获取第一数据;
从所述第一数据中选择出第一特征数据,所述第一特征数据具有满足预设要求的特征;
将所述第一特征数据按照迭代的顺序依次输入预设的聚类模型中,根据所述聚类模型的输出结果判断所述第一特征数据是否属于预设的目标类集合;
当所述第一特征数据不属于所述目标类集合时,判定当前系统处于正常状态;当所述第一特征数据属于所述目标类集合时,将所述第一特征数据输入预先训练好的分类模型中,根据所述分类模型的分类结果判断当前系统是否处于异常状态;其中,所述分类模型是以相对平衡的数据集作为分类训练集对预设的分类器进行训练获得的。
在本申请的示例性实施例中,所述对所述系统监控数据进行预处理获取第一数据,可以包括:
对所述系统监控数据进行向量初始化,获取第一初始特征矩阵;
将所述第一初始特征矩阵中的每个特征分别进行中心标准化处理,得到第一新特征矩阵,作为所述第一数据。
在本申请的示例性实施例中,所述从所述第一数据中选择出第一特征数据,可以包括:
采用基于互信息的最小冗余最大相关方法从所述第一数据中选出与预设的异常状态之间的互信息值最大的一个或多个特征,组成所述第一特征数据。
在本申请的示例性实施例中,所述聚类模型,可以用于采用学习向量量化聚类算法对所述第一特征数据集进行聚类。
在本申请的示例性实施例中,在将所述第一特征数据输入预先训练好的分类模型中之前,所述方法还可以包括:
调取预先存储的训练好的分类模型;或者,
获取所述分类训练集,并通过所述分类训练集对预设的分类器进行训练,获取所述分类模型。
在本申请的示例性实施例中,所述获取所述分类训练集可以包括:
对采集的系统监控数据进行预处理获取第二数据;
从所述第二数据中选择出第二特征数据,并从选择出的第二特征数据中划分出第一训练数据集;
将所述第一训练数据集输入预设的迭代聚类模型,以通过所述迭代聚类模型对所述第一训练数据进行迭代聚类,获得相对平衡的数据集,作为所述分类训练集;所述相对平衡的数据集是指所包含的正常状态的样本数量与异常状态的样本数量的比值满足预设的比值范围的数据集。
在本申请的示例性实施例中,所述对采集的系统监控数据进行预处理获取第二数据,可以包括:
对所述系统监控数据进行向量初始化,获取第二初始特征矩阵;将所述第二初始特征矩阵中的每个特征分别进行中心标准化处理,得到第二新特征矩阵,作为所述第二数据;
所述从所述第二数据中选择出第二特征数据,可以包括:
采用基于互信息的最小冗余最大相关方法从所述第二数据中选出与预设的异常状态之间的互信息值最大的一个或多个特征,组成所述第二特征数据。
在本申请的示例性实施例中,所述迭代聚类模型可以用于:基于所述第一训练数据集迭代运行以下步骤,直至获得所述相对平衡的训练数据集:
采用聚类模型对所述第一训练数据集进行聚类;
利用聚类结果实现欠采样。
在本申请的示例性实施例中,所述预设的分类器可以包括:代价敏感的支持向量分类器CS-SVM。
本申请实施例还提供了一种系统异常诊断装置,可以包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现上述任意一项所述的系统异常诊断方法。
与相关技术相比,本申请实施例可以包括:采集系统监控数据,并对所述系统监控数据进行预处理获取第一数据;从所述第一数据中选择出第一特征数据,所述第一特征数据具有满足预设要求的特征;将所述第一特征数据按照迭代的顺序依次输入预设的聚类模型中,根据所述聚类模型的输出结果判断所述第一特征数据是否属于预设的目标类集合;当所述第一特征数据不属于所述目标类集合时,判定当前系统处于正常状态;当所述第一特征数据属于所述目标类集合时,将所述第一特征数据输入预先训练好的分类模型中,根据所述分类模型的分类结果判断当前系统是否处于异常状态;其中,所述分类模型是以相对平衡的数据集作为分类训练集对预设的分类器进行训练获得的。通过该实施例方案,实现了准确识别高铁列车关键子系统的异常状态,保障了高铁列车的安全运行。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例的系统异常诊断方法流程图;
图2为本申请实施例的系统异常诊断方法示意图;
图3为本申请实施例的获取分类训练集的方法流程图;
图4为本申请实施例的测试集最终分类结果的混淆矩阵示意图;
图5为本申请实施例的系统异常诊断装置组成框图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
本申请实施例提供了一种系统异常诊断方法,如图1、图2所示,所述方法可以包括步骤S101-S104:
S101、采集系统监控数据,并对所述系统监控数据进行预处理获取第一数据;
S102、从所述第一数据中选择出第一特征数据,所述第一特征数据具有满足预设要求的特征;
S103、将所述第一特征数据按照迭代的顺序依次输入预设的聚类模型中,根据所述聚类模型的输出结果判断所述第一特征数据是否属于预设的目标类集合;
S104、当所述第一特征数据不属于所述目标类集合时,判定当前系统处于正常状态;当所述第一特征数据属于所述目标类集合时,将所述第一特征数据输入预先训练好的分类模型中,根据所述分类模型的分类结果判断当前系统是否处于异常状态;其中,所述分类模型是以相对平衡的数据集作为分类训练集对预设的分类器进行训练获得的。
在本申请的示例性实施例中,本申请实施例方案可以应用于高铁列车关键功能子系统的异常诊断应用场景,为了准确识别高铁列车关键子系统的异常状态,保障高铁列车的安全运行,本申请实施例提出了一种基于聚类的欠采样框架及异常诊断方法,设计出一种新的降低训练集非平衡比的欠采样方法,在降低非平衡比的同时尽量减少正常运行数据的信息丢失,从而可以采用一些经典的机器学习方法对处理之后数据集进行异常诊断,及时准确地识别出高铁列车子系统的异常,为高铁列车的安全运行提供了技术支持。
在本申请的示例性实施例中,在实施上述的步骤S101-S104之前,可以首先获取该分类模型。
在本申请的示例性实施例中,在将所述第一特征数据输入预先训练好的分类模型中之前,所述方法还可以包括:
调取预先存储的训练好的分类模型;或者,
获取所述分类训练集,并通过所述分类训练集对预设的分类器进行训练,获取所述分类模型。
在本申请的示例性实施例中,如图3所示,所述获取所述分类训练集可以包括步骤S201-S203:
S201、对采集的系统监控数据进行预处理获取第二数据。
在本申请的示例性实施例中,所述对采集的系统监控数据进行预处理获取第二数据,可以包括:
对所述系统监控数据进行向量初始化,获取第二初始特征矩阵;将所述第二初始特征矩阵中的每个特征分别进行中心标准化处理,得到第二新特征矩阵,作为所述第二数据;
在本申请的示例性实施例中,可以首先对系统监控数据进行向量初始化。例如,设共有n个时刻的高铁列车的系统监控数据可以作为训练输入,共有p个特征,组成初始特征矩阵X=(xij)n×p,样本标签向量y=(yi)n×1,其中xij代表第i个样本的第j个特征,yi表示第i个样本是否为异常样本,i=1,2,…,n,j=1,2,…,p;n和p为正整数。
在本申请的示例性实施例中,对于向量初始化后获得的第二初始特征矩阵中的每个特征分别进行中心标准化处理,得到新的特征矩阵(即第二新特征矩阵)Z=(zij)n×p,即:
Figure BDA0002994587320000071
S202、从所述第二数据中选择出第二特征数据,并从选择出的第二特征数据中划分出第一训练数据集。
在本申请的示例性实施例中,所述从所述第二数据中选择出第二特征数据,可以包括:
采用基于互信息的最小冗余最大相关方法从所述第二数据中选出与预设的异常状态之间的互信息值最大的一个或多个特征,组成所述第二特征数据。
在本申请的示例性实施例中,高铁列车关键子系统异常诊断所需模型(如迭代聚类模型、分类模型)输入的特征(即第二特征数据)的选择和确定可以通过下述方案实现。
在本申请的示例性实施例中,根据高铁列车上安装的多种传感器,可以获取列车运行过程中的速度、内部温度、电池电压、是否发生滑移、ED制动状态、TCL制动状态、制动力等特征数据。由于高铁列车系统的复杂性,得到的特征数量是非常多的,其中部分特征与异常状态之间的相关性较低,如果把所有特征全部输入前述的模型(如迭代聚类模型)会增加计算复杂度,并且影响最终的分类精度,所以需要根据特征和异常状态之间的相关性进行特征选择。可以采用互信息度量特征和异常状态以及特征与特征之间的相关性,特征x和特征y之间的互信息I(x;y)可以定义为:
Figure BDA0002994587320000081
其中f(·)是随机变量的概率密度函数。
在本申请的示例性实施例中,使用的特征选择方法可以是基于互信息的最小冗余最大相关(mRMR)方法,mRMR方法包含最大关联和最小冗余两部分。最大相关目标是搜索与异常状态y之间的互信息值最大的特征。如果只考虑最大相关性,所选特征之间的冗余信息可能很大。因此,在选择特征集合(即第二特征数据)时应考虑最小冗余,尽量降低所选特征之间的相关性。
在本申请的示例性实施例中,下面可以给出mRMR的伪代码,利用该方法可以选择出最相关的k个特征构成模型的输入特征:
输入:全部特征集F;
样本标签向量y;
最终选择的特征数量k.
过程:
1:初始化选中特征集,
Figure BDA0002994587320000082
2:将与y的互信息最大的特征
Figure BDA0002994587320000091
加入选中特征集S,即:
Figure BDA0002994587320000092
3:for i=2→kdo
4:
Figure BDA0002994587320000093
5:将特征x′加入选中特征集S,即S=S∪x′;
6:end for
输出:选中特征集S(如第二特征数据)。
在本申请的示例性实施例中,获取该第二特征数据以后,可以按照3:1的比例随机将处理后的特征矩阵Z和样本标签向量y划分为训练数据集Str(即下述的第一训练数据集)和验证数据集Sva
S203、将所述第一训练数据集输入预设的迭代聚类模型,以通过所述迭代聚类模型对所述第一训练数据进行迭代聚类,获得相对平衡的数据集,作为所述分类训练集;所述相对平衡的数据集是指所包含的正常状态的样本数量与异常状态的样本数量的比值满足预设的比值范围的数据集。
在本申请的示例性实施例中,所述迭代聚类模型可以用于:基于所述第一训练数据集迭代运行以下步骤,直至获得所述相对平衡的训练数据集:
采用聚类模型对所述第一训练数据集进行聚类;
利用聚类结果实现欠采样。
在本申请的示例性实施例中,利用基于聚类的多数样本(正常运行数据)迭代删除方法进行欠采样,可以包括步骤A-C:
A、采用学习向量量化(LVQ)对训练数据集Str进行聚类;具体流程的伪代码可以包括:
输入:训练集Str={(z1,y1),(z2,y2),...,(zn,yn)};
学习率η,η∈(0,1);
聚类类别数量q.
过程:
1:从训练集Str中随机选择q个聚类中心{p1,p2,...,pq};聚类中心的标签为{t1,t2,...,tq};
2:repeat
3:初始化聚类分配,
Figure BDA0002994587320000101
4:for j=1→n do
5:计算样本zj和各个聚类中心pi(i=1,2,...,q)之间的欧氏距离,dij=||zj-pi||2
6:找出与zj距离最近的聚类中心
Figure BDA0002994587320000102
Figure BDA0002994587320000103
7:更新zj的聚类分配,
Figure BDA0002994587320000104
8:if
Figure BDA0002994587320000105
then
9:
Figure BDA0002994587320000106
10:else
11:
Figure BDA0002994587320000107
12:end if
13:更新聚类中心,
Figure BDA0002994587320000108
14:end for
15:until聚类分配Ctotal不再变化或者达到迭代次数的限制.
输出:聚类分配Ctotal={C1,C2,...,Cn},q个聚类中心{p1,p2,...,pq}。
B、利用聚类结果实现欠采样:
可以利用聚类模型M(所述聚类模型可以用于采用学习向量量化聚类算法对所述第一特征数据集和所述第一特征数据集进行聚类)将训练数据集Str聚为q个类,目标类Ci是含有异常样本的类别,目标类集合Ctc={C1,...,Cn}是所有目标类组成的集合。将聚类模型M应用到验证数据集Sva上,Cva表示在Sva中覆盖异常样本的目标类集合。聚类模型M的效果可以用“覆盖率”衡量,覆盖率R定义为:
Figure BDA0002994587320000111
其中,
Figure BDA0002994587320000112
表示Cva中的异常样本数量,
Figure BDA0002994587320000113
表示Sva中的异常样本数量。如果覆盖率不小于预先设定的阈值τR,并且每次迭代删除的多数样本数量不小于预先设定的阈值τN,则接受聚类模型M,删除不属于目标类集合Ctc的所有训练样本,得到一个过滤后的训练集。
C、迭代运行步骤A和步骤B,直到得到相对平衡的训练集S′tr(即所述分类训练集)。
在本申请的示例性实施例中,可以利用欠采样后的相对平衡的训练集S′tr训练预设的分类器获取分类(异常诊断)模型。
在本申请的示例性实施例中,所述预设的分类器可以包括:代价敏感的支持向量分类器CS-SVM。
在本申请的示例性实施例中,选用代价敏感的支持向量分类器(CS-SVM)作为最终的分类模型,该模型可以认为是求解以下优化模型:
Figure BDA0002994587320000114
s.t.wTz++b≥c-ξ+
wTz-+b≤-c+ξ-
其中,w和b为分类超平面参数,c为代价系数,C+为异常样本误分类为正常样本的惩罚因子,C-为正常样本误分类为异常样本的惩罚因子,ξ为松弛变量。为了获得更好的分类结果,可以设置C-,C+的值设置为超参数。在模型构建阶段,可以选用高斯核函数(RBF),高斯核函数在处理非线性关系时表现优异,是一种非常常用的核函数,具体计算公式可以表示如下:
Figure BDA0002994587320000115
其中,γ是宽度系数,控制函数的径向作用范围。
在本申请的示例性实施例中,通过以上方案便可以获取本申请实施例方案提出的能够降低训练集非平衡比的分类模型。
在本申请的示例性实施例中,基于所述分类模型和聚类模型M,通过步骤S101-S104可以实现系统异常诊断,例如,高铁列车关键子系统的异常诊断。
在本申请的示例性实施例中,所述对所述系统监控数据进行预处理获取第一数据,可以包括:
对所述系统监控数据进行向量初始化,获取第一初始特征矩阵;
将所述第一初始特征矩阵中的每个特征分别进行中心标准化处理,得到第一新特征矩阵,作为所述第一数据。
在本申请的示例性实施例中,所述从所述第一数据中选择出第一特征数据,可以包括:
采用基于互信息的最小冗余最大相关方法从所述第一数据中选出与预设的异常状态之间的互信息值最大的一个或多个特征,组成所述第一特征数据。
在本申请的示例性实施例中,获取第一数据的方案与前述的获取第二数据的方案可以相同,获取第一初始特征矩阵的方案与前述的获取第二初始特征矩阵的方案可以相同,获取第一特征数据的方案与前述的获取第二特征数据的方案可以相同,在此均不再一一赘述。
在本申请的示例性实施例中,所述根据所述分类模型的分离结果判断当前系统是否处于异常状态,可以包括:根据所述分类模型的输出结果判断所述第一特征数据是否被分类为异常数据,当所述第一特征数据被分类为异常数据时判定当前系统处于异常状态;当所述第一特征数据被分类为正常数据时判定当前系统处于正常状态。
在本申请的示例性实施例中,根据特征选择的结果,可以实时读取需要输入的传感器数据,x(0)=(x01,x02,...,x0k)′,并且将数据中心标准化处理得到z(0)。将处理之后的数据向量z(0)按照迭代的顺序依次输入前述的聚类模型M,如果z(0)不在最终的目标类集合Ctc中,则直接判定当前状态系统正常;如果z(0)在最终的目标类集合Ctc中,则将z(0)输入训练好的分类模型中,如果分类模型的分类结果为0,则判定当前状态系统正常,如果分类模型的分类结果为1,则判定当前状态系统异常。
在本申请的示例性实施例中,本申请实施例提供的基于聚类欠采样框架的系统高度非平衡监控数据的异常诊断方法,能够及时准确地识别出系统的异常状态,为高铁列车的安全运行提供了技术支持。
在本申请的示例性实施例中,可以以高铁列车的制动系统为对象建立数学模型,来说明本申请实施例方案。
在本申请的示例性实施例中,实验数据集中可以共含有与高铁列车制动系统故障相关的监控变量共44个。它们包括列车级特征,如:GPS位置、速度、运行模式、外部电源、运行小时数、线路电压、线路电流;制动系统级条件,如:内部温度、电池电压、是否滑移、ED制动状态、TCL制动状态、制动力等。
在本申请的示例性实施例中,高铁列车制动系统可能会出现不同的故障,如停塞紧急应用阀关闭、MTB隔离、转向架气动制动停塞关闭、停塞关闭等。在实验中不区分不同类型的故障,统一识别为异常状态。由于可靠性很高,正常状态的样本总数为24754个,异常状态的样本总数仅为45个。因此,数据集的非平衡比超过550:1。正常状态和异常状态之间存在很大的类重叠,准确分类的难度很大。可以将上述训练集按照3:1:1随机划分训练集、验证集和测试集。
在本申请的示例性实施例中,将所有监测数据转化为数值特征。经过数据转换,数据集包含46个数字特征,31个为二进制特征,15个为连续实数特征。将所有数字特征经过中心标准化处理后应用mRMR进行特征选择,最终选取了相关性较高的若干特征作为模型输入特征。在处理后的训练数据集上应用基于聚类的多数样本(正常运行数据)迭代删除方法进行欠采样。再利用欠采样后的训练集训练CS-SVM,获取分类模型。
在本申请的示例性实施例中,利用训练好的分类模型按照步骤S101-S104在测试集上进行验证,测试集包含4950个正常样本和9个异常样本,IR为550∶1。最终77.78%的异常样本被正确分类。所有测试样本的分类正确率为96.24%。最终测试结果的混淆矩阵如图4所示。
在本申请的示例性实施例中,本申请实施例的有益效果包括:
1、采用基于互信息的最大最小冗余最大相关特征选择方法对监控数据进行特征选择,删除一些与系统异常相关性较低的特征,降低后续计算复杂度的同时也能提高最终的分类表现。
2、设计了一种基于聚类的多数样本(正常运行数据)迭代删除方法,通过先对训练集进行聚类,根据聚类结果中包含少数样本(异常)的数量确定每一类中多数样本是否保留到最终的训练集中,通过迭代运行上述步骤最终在尽量减少信息丢失的同时平衡训练集中样本类别。
3、利用处理之后的训练集训练代价敏感的支持向量分类器,利用训练好的分类模型实现高铁关键功能子系统的异常诊断,为高铁列车的安全运行提供了技术支持。
在本申请的示例性实施例中,与现有技术相比,本申请实施例方法能够更加有效地处理高铁列车的高度非平衡数据集,结构简单,计算成本较低,识别快速有效,准确度高,具有较好的实用性和优越性,是一种高效实用的高铁列车关键功能子系统的异常诊断方法。
本申请实施例还提供了一种系统异常诊断装置1,如图5所示,可以包括处理器11和计算机可读存储介质12,所述计算机可读存储介质12中存储有指令,当所述指令被所述处理器11执行时,实现上述任意一项所述的系统异常诊断方法。
在本申请的示例性实施例中,上述的方法实施例中的任何实施例均适用于该装置实施例中,在此不再一一赘述。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种系统异常诊断方法,其特征在于,所述方法包括:
采集系统监控数据,并对所述系统监控数据进行预处理获取第一数据;
从所述第一数据中选择出第一特征数据,所述第一特征数据具有满足预设要求的特征;
将所述第一特征数据按照迭代的顺序依次输入预设的聚类模型中,根据所述聚类模型的输出结果判断所述第一特征数据是否属于预设的目标类集合;
当所述第一特征数据不属于所述目标类集合时,判定当前系统处于正常状态;当所述第一特征数据属于所述目标类集合时,将所述第一特征数据输入预先训练好的分类模型中,根据所述分类模型的分类结果判断当前系统是否处于异常状态;其中,所述分类模型是以相对平衡的数据集作为分类训练集对预设的分类器进行训练获得的。
2.根据权利要求1所述的系统异常诊断方法,其特征在于,所述对所述系统监控数据进行预处理获取第一数据,包括:
对所述系统监控数据进行向量初始化,获取第一初始特征矩阵;
将所述第一初始特征矩阵中的每个特征分别进行中心标准化处理,得到第一新特征矩阵,作为所述第一数据。
3.根据权利要求1所述的系统异常诊断方法,其特征在于,所述从所述第一数据中选择出第一特征数据,包括:
采用基于互信息的最小冗余最大相关方法从所述第一数据中选出与预设的异常状态之间的互信息值最大的一个或多个特征,组成所述第一特征数据。
4.根据权利要求1所述的系统异常诊断方法,其特征在于,所述聚类模型,用于采用学习向量量化聚类算法对所述第一特征数据集进行聚类。
5.根据权利要求1所述的系统异常诊断方法,其特征在于,在将所述第一特征数据输入预先训练好的分类模型中之前,所述方法还包括:
调取预先存储的训练好的分类模型;或者,
获取所述分类训练集,并通过所述分类训练集对预设的分类器进行训练,获取所述分类模型。
6.根据权利要求5所述的系统异常诊断方法,其特征在于,所述获取所述分类训练集包括:
对采集的系统监控数据进行预处理获取第二数据;
从所述第二数据中选择出第二特征数据,并从选择出的第二特征数据中划分出第一训练数据集;
将所述第一训练数据集输入预设的迭代聚类模型,以通过所述迭代聚类模型对所述第一训练数据进行迭代聚类,获得相对平衡的数据集,作为所述分类训练集;所述相对平衡的数据集是指所包含的正常状态的样本数量与异常状态的样本数量的比值满足预设的比值范围的数据集。
7.根据权利要求6所述的系统异常诊断方法,其特征在于,所述对采集的系统监控数据进行预处理获取第二数据,包括:
对所述系统监控数据进行向量初始化,获取第二初始特征矩阵;将所述第二初始特征矩阵中的每个特征分别进行中心标准化处理,得到第二新特征矩阵,作为所述第二数据;
所述从所述第二数据中选择出第二特征数据,包括:
采用基于互信息的最小冗余最大相关方法从所述第二数据中选出与预设的异常状态之间的互信息值最大的一个或多个特征,组成所述第二特征数据。
8.根据权利要求6所述的系统异常诊断方法,其特征在于,所述迭代聚类模型用于:基于所述第一训练数据集迭代运行以下步骤,直至获得所述相对平衡的训练数据集:
采用聚类模型对所述第一训练数据集进行聚类;
利用聚类结果实现欠采样。
9.根据权利要求5所述的系统异常诊断方法,其特征在于,所述预设的分类器包括:代价敏感的支持向量分类器CS-SVM。
10.一种系统异常诊断装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1-9任意一项所述的系统异常诊断方法。
CN202110325710.1A 2021-03-26 2021-03-26 一种系统异常诊断方法和装置 Active CN112990329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110325710.1A CN112990329B (zh) 2021-03-26 2021-03-26 一种系统异常诊断方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110325710.1A CN112990329B (zh) 2021-03-26 2021-03-26 一种系统异常诊断方法和装置

Publications (2)

Publication Number Publication Date
CN112990329A true CN112990329A (zh) 2021-06-18
CN112990329B CN112990329B (zh) 2023-06-23

Family

ID=76333911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110325710.1A Active CN112990329B (zh) 2021-03-26 2021-03-26 一种系统异常诊断方法和装置

Country Status (1)

Country Link
CN (1) CN112990329B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023173548A1 (zh) * 2022-03-16 2023-09-21 平安科技(深圳)有限公司 一种数据均衡化方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106604267A (zh) * 2017-02-21 2017-04-26 重庆邮电大学 一种动态自适应的无线传感器网络入侵检测智能算法
US20170161606A1 (en) * 2015-12-06 2017-06-08 Beijing University Of Technology Clustering method based on iterations of neural networks
CN110634080A (zh) * 2018-06-25 2019-12-31 中兴通讯股份有限公司 异常用电检测方法、装置、设备及计算机可读存储介质
CN110889441A (zh) * 2019-11-19 2020-03-17 海南电网有限责任公司海南输变电检修分公司 一种基于距离和点密度的变电设备数据异常识别方法
CN112381130A (zh) * 2020-11-10 2021-02-19 国网上海市电力公司 一种基于聚类分析的配电房多元数据异常检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161606A1 (en) * 2015-12-06 2017-06-08 Beijing University Of Technology Clustering method based on iterations of neural networks
CN106604267A (zh) * 2017-02-21 2017-04-26 重庆邮电大学 一种动态自适应的无线传感器网络入侵检测智能算法
CN110634080A (zh) * 2018-06-25 2019-12-31 中兴通讯股份有限公司 异常用电检测方法、装置、设备及计算机可读存储介质
CN110889441A (zh) * 2019-11-19 2020-03-17 海南电网有限责任公司海南输变电检修分公司 一种基于距离和点密度的变电设备数据异常识别方法
CN112381130A (zh) * 2020-11-10 2021-02-19 国网上海市电力公司 一种基于聚类分析的配电房多元数据异常检测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
DEBASHREE DEVI等: "A Review on Solution to Class Imbalance Problem: Undersampling Approaches", 《2020 INTERNATIONAL CONFERENCE ON COMPUTATIONAL PERFORMANCE EVALUATION (COMPE)》 *
徐丽丽等: "基于聚类欠采样的极端学习机", 《微型机与应用》 *
徐丽丽等: "基于聚类欠采样的极端学习机", 《微型机与应用》, 31 December 2015 (2015-12-31), pages 2 *
徐增敏等: "一种基于混合聚类和支持向量机的用电数据分类算法", 《长沙理工大学学报(自然科学版)》 *
徐增敏等: "一种基于混合聚类和支持向量机的用电数据分类算法", 《长沙理工大学学报(自然科学版)》, no. 02, 30 June 2006 (2006-06-30) *
谢荣斌等: "基于改进K-means聚类的变压器异常状态识别模型", 《电力大数据》 *
谢荣斌等: "基于改进K-means聚类的变压器异常状态识别模型", 《电力大数据》, no. 05, 21 May 2018 (2018-05-21) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023173548A1 (zh) * 2022-03-16 2023-09-21 平安科技(深圳)有限公司 一种数据均衡化方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112990329B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN109978379B (zh) 时序数据异常检测方法、装置、计算机设备和存储介质
CN110207997B (zh) 基于卷积自编码器的液体火箭发动机故障检测方法
US8849732B2 (en) Adaptive remote maintenance of rolling stocks
CN109000940B (zh) 一种机车车辆异常轴温诊断方法及系统
CN102375452B (zh) 改善故障代码设定和隔离故障的事件驱动的数据挖掘方法
CN110766059A (zh) 一种变压器故障的预测方法、装置和设备
CN111538311B (zh) 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置
CN111474475A (zh) 一种电机故障诊断系统及方法
CN110991471A (zh) 一种高速列车牵引系统故障诊断方法
CN116541790A (zh) 基于多特征融合的新能源车辆健康评估方法和装置
CN115563503A (zh) 基于车辆历史数据的故障预测方法、系统和存储介质
JP7115346B2 (ja) 異常検知装置
CN112990329A (zh) 一种系统异常诊断方法和装置
Panda et al. ML-based vehicle downtime reduction: A case of air compressor failure detection
CN116907772A (zh) 桥梁结构监测传感器的自诊断与故障源鉴别方法及系统
Zeng et al. Rail break prediction and cause analysis using imbalanced in-service train data
Last et al. Predictive maintenance with multi-target classification models
CN115618263A (zh) 一种基于Feature-level SMOTE的复杂装备不均衡故障诊断方法
CN114167837B (zh) 一种铁路信号系统的智能故障诊断方法及系统
CN115545101A (zh) 一种基于残差神经网络的高速列车转向架故障诊断方法
Zehelein et al. Damper diagnosis by artificial intelligence
CN114818116A (zh) 基于联合学习的飞机发动机失效模式识别和寿命预测方法
KR20230075150A (ko) 시스템 건전성을 관리하기 위한 방법 및 장치
CN111881988A (zh) 基于少数类过采样方法的异质不平衡数据故障检测方法
Zhang et al. Bearing performance degradation assessment based on a combination of multi-scale entropy and K-medoids clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant