CN116192620A - 故障检测模型训练方法、故障检测方法、装置及系统 - Google Patents

故障检测模型训练方法、故障检测方法、装置及系统 Download PDF

Info

Publication number
CN116192620A
CN116192620A CN202211159979.8A CN202211159979A CN116192620A CN 116192620 A CN116192620 A CN 116192620A CN 202211159979 A CN202211159979 A CN 202211159979A CN 116192620 A CN116192620 A CN 116192620A
Authority
CN
China
Prior art keywords
fault detection
detection model
model parameters
log
system log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211159979.8A
Other languages
English (en)
Inventor
侯帅
祝恩国
卢继哲
张海龙
阿辽沙·叶
刘岩
郑国权
任毅
李然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Beijing Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Beijing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Beijing Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202211159979.8A priority Critical patent/CN116192620A/zh
Publication of CN116192620A publication Critical patent/CN116192620A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

一种故障检测模型训练方法、故障检测方法、装置及系统,通过构建端‑边‑云三层架构,云端负责初始故障检测模型的训练和后续更新,边缘服务器负责本地模型的训练,终端使用故障检测模型进行故障检测,整个过程兼顾了故障检测精度、检测效率和终端的数据隐私;通过终端的数据压缩、传输故障检测模型参数等方式减少终端、边缘服务器和云端的数据传输,降低网络带宽使用,提高模型更新效率;提出三种不同的模型更新策略,可以均衡模型更新速度和模型精度,适用于不同的应用需求。

Description

故障检测模型训练方法、故障检测方法、装置及系统
技术领域
本发明涉及电力技术领域,具体而言,涉及一种故障检测模型训练方法、故障检测方法、装置及系统。
背景技术
电网的正常运行与国家安全与社会和谐紧密相关,电力终端是电网的重要组成部分,负责整个电网的计量、监测、控制、调度等,其形态、功能、配置等存在较大差异,如电能表、集中器、专变终端、能源控制器等。随着智能电网的发展,电力终端由单一功能、自动化向功能融合、智能化过渡。同时,随着能源互联网的新型业务快速扩展,对智能用电、高效采集、双向互动提出了更高的要求,对智能电力终端的可靠性、安全性、稳定性带来了更大的挑战。智能电力终端发生系统故障后采集的数据不可靠、实施的控制不准确,可能会导致电力设备损毁甚至部分地区供电中断,造成较为严重的社会影响和经济损失。因此,智能电网的安全运营需要快速、高精度的检测智能电力终端系统故障的方法。
当前电力终端的故障检测方法主要有三类,第一类是人工检测,通过巡检或维护人员的经验,根据设备的外部特征等进行判断,此类方法需要人力成本较高且人员的经验对检测结果影响较大。第二类借助专业设备进行故障检测,如通过监控设备、无人机、传感器等对终端设备或电网状态进行监测,从而判断故障,但此类方法主要针对外在的物理特征,对于智能终端的系统故障、软件故障等很难监测。第三类是基于数据分析模型的故障检测,采用数据统计、数据挖掘、机器学习、人工智能等模型对设备运行过程产生的系统数据或者工作记录等进行建模,形成故障检测模型,再使用检测模型进行故障检测。第一类和第二类方法主要解决结构性或功能性故障,即从外部形态可以判定的故障。但是对于智能电力终端而言,系统性故障通常不会在外部表现出来,二是在系统内部进行异常操作,通常采用第三类方法解决。
基于数据分析模型的故障检测方法是目前智能电力终端系统故障检测最常用的方法,根据故障检测模型训练位置不同,又可以细分为基于终端的故障检测和基于云端的故障检测两类。若在终端实现故障检测,虽然不需要通过网络传输数据,能够快速得到检测结果,但由于单个终端的硬件资源较少,只能选择简单的故障检测模型,导致故障检测的准确率较低;同时由于单个终端的数据量较少,也会造成模型训练的过拟合,进一步降低检测结果的准确率。若在云端进行故障检测,可以利用云端大规模的计算资源训练复杂的检测模型,如精度较高的深度网络和深度学习模型,提高检测结果的准确率和效率,但云端检测需要各个终端将数据传输到云端进行模型训练和结果检测,造成网络传输时延较大,同时可能会导致数据的隐私安全问题,云端可能会泄露终端本地数据。
总体而言,基于数据分析模型的故障检测方法适用于当前智能电力终端,但基于终端的检测方法存在检测精度低的问题,而基于云端的检测方法存在传输时延高且无法保护数据隐私的问题,不能兼顾故障检测的准确率、效率和隐私安全。
发明内容
鉴于此,本发明提出了一种故障检测模型训练方法、故障检测方法、装置及系统,旨在解决现有故障检测方法不能兼顾故障检测的准确率、效率和隐私安全的问题。
第一方面,本发明实施例提供了一种故障检测模型训练方法,应用于边缘服务器,所述方法包括:接收云端服务器发送的第一故障检测模型参数;基于所述第一故障检测模型参数构建得到第一故障检测模型,并对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数;将所述第二故障检测模型参数发送至所述云端服务器,以供所述云端服务器基于所述第二故障检测模型参数更新得到第三故障检测模型参数,并将所述第三故障检测模型参数发送至每个所述边缘服务器;根据所述第三故障检测模型参数更新所述第二故障检测模型,并将所述第三故障检测模型参数发送至所覆盖的所有终端,以供所述终端更新其故障检测模型。
进一步地,所述方法还包括:接收所覆盖的所有终端发送的系统日志;根据所接收的每条系统日志中的故障检测结果,为每条系统日志添加故障类型标签以作为第二训练数据。
进一步地,所述终端包括隐私终端和非隐私终端,所述接收所覆盖的所有终端发送的系统日志,包括:接收所覆盖的所有非隐私终端发送的系统日志。
进一步地,若所述第一故障检测模型参数为初始故障检测模型参数,所述初始故障检测模型参数是所述云端服务器使用神经网络模型对第一训练数据进行分析后所得到的初始故障检测模型的参数。
进一步地,所述对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数,包括:根据应用场景选择对应的模型更新策略,采用所述第二训练数据对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数。
进一步地,所述模型更新策略,包括:周期式更新策略、增量式更新策略和触发式更新策略。
第二方面,本发明实施例还提供了一种故障检测模型训练方法,其特征在于,应用于云端服务器,所述方法包括:发送第一故障检测模型参数至每个边缘服务器,以供每个边缘服务器基于所述第一故障检测模型参数发送第二故障检测模型参数至所述云端服务器;基于所述第二故障检测模型参数更新得到第三故障检测模型参数;将所述第三故障检测模型参数发送至每个所述边缘服务器,以供每个所述边缘服务器根据所述第三故障检测模型参数更新所述第二故障检测模型,并将所述第三故障检测模型参数发送至所覆盖的所有终端。
进一步地,所述基于所述第二故障检测模型参数更新得到第三故障检测模型参数,包括:根据应用场景选择对应的模型更新策略,对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数。
进一步地,所述对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数,包括:对接收到的所有第二故障检测模型参数进行版本检测,保留最新版本;对所有最新版本的第二故障检测模型参数进行加权处理;将加权处理后的第二故障检测模型参数进行聚合,生成第三故障检测模型参数。
第三方面,本发明实施例还提供了一种故障检测方法,应用于终端,所述方法包括:获取系统日志;将所述系统日志输入采用上述各个实施例提供的方法训练得到的故障检测模型,得到故障检测结果,并根据所述故障检测结果进行对应的出错处理;对带有故障检测结果的系统日志进行冗余过滤,并将过滤后的系统日志发送至所在的边缘服务器或保存至本地。
进一步地,所述获取系统日志之后,包括:对所述系统日志进行预处理。
进一步地,所述系统日志包括敏感日志和非敏感日志,所述对带有故障检测结果的系统日志进行冗余过滤,包括:判断所述带有故障检测结果的系统日志是否为非敏感日志;若为非敏感日志,则计算所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度,其中T为预设时间阈值;若所述相似度高于预设阈值,则删除所述带有故障检测结果的系统日志以实现冗余过滤。
进一步地,所述计算所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度,包括:分别计算所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的故障位置相似度和故障描述相似度;对所述故障位置相似度和所述故障描述相似度进行加权求和,得到所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度。
进一步地,所述将过滤后的系统日志发送至所在的边缘服务器之前,还包括:将过滤的系统日志进行数据压缩。
进一步地,所述终端包括隐私终端和非隐私终端,所述将过滤后的系统日志发送至所在的边缘服务器或保存至本地,包括:若所述终端为非隐私终端,则将所述过滤后的系统日志发送至所在的边缘服务器;若所述终端为隐私终端,则将过滤后的系统日志保存至本地。
第四方面,本发明实施例还提供了一种故障检测模型训练装置,应用于边缘服务器,所述装置包括:第一接收单元,用于接收云端服务器发送的第一故障检测模型参数;第一模型处理单元,用于基于所述第一故障检测模型参数构建得到第一故障检测模型,并对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数;第一发送单元,用于将所述第二故障检测模型参数发送至所述云端服务器,以供所述云端服务器基于所述第二故障检测模型参数更新得到第三故障检测模型参数,并将所述第三故障检测模型参数发送至每个所述边缘服务器;第一更新单元,用于根据所述第三故障检测模型参数更新所述第二故障检测模型,并将所述第三故障检测模型参数发送至所覆盖的所有终端,以供所述终端更新其故障检测模型。
进一步地,所述装置还包括训练数据处理单元,用于:接收所覆盖的所有终端发送的系统日志;根据所接收的每条系统日志中的故障检测结果,为每条系统日志添加故障类型标签以作为第二训练数据。
进一步地,所述终端包括隐私终端和非隐私终端,所述接收所覆盖的所有终端发送的系统日志,包括:接收所覆盖的所有非隐私终端发送的系统日志。
进一步地,若所述第一故障检测模型参数为初始故障检测模型参数,所述初始故障检测模型参数是所述云端服务器使用神经网络模型对第一训练数据进行分析后所得到的初始故障检测模型的参数。
进一步地,所述对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数,包括:根据应用场景选择对应的模型更新策略,采用所述第二训练数据对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数。
进一步地,所述模型更新策略,包括:周期式更新策略、增量式更新策略和触发式更新策略。
第五方面,本发明实施例还提供了一种故障检测模型训练装置,其特征在于,应用于云端服务器,所述装置包括:第二发送单元,用于发送第一故障检测模型参数至每个边缘服务器,以供每个边缘服务器基于所述第一故障检测模型参数发送第二故障检测模型参数至所述云端服务器;第二模型处理单元,用于基于所述第二故障检测模型参数更新得到第三故障检测模型参数;第三发送单元,用于将所述第三故障检测模型参数发送至每个所述边缘服务器,以供每个所述边缘服务器根据所述第三故障检测模型参数更新所述第二故障检测模型,并将所述第三故障检测模型参数发送至所覆盖的所有终端。
进一步地,所述第二模型处理单元,还用于:根据应用场景选择对应的模型更新策略,对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数。
进一步地,所述对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数,包括:对接收到的所有第二故障检测模型参数进行版本检测,保留最新版本;对所有最新版本的第二故障检测模型参数进行加权处理;将加权处理后的第二故障检测模型参数进行聚合,生成第三故障检测模型参数。
第六方面,本发明实施例还提供了一种故障检测装置,应用于终端,所述装置包括:日志获取单元,用于获取系统日志;故障检测单元,用于将所述系统日志输入采用上述各个实施例提供的方法训练得到的故障检测模型,得到故障检测结果,并根据所述故障检测结果进行对应的出错处理;冗余过滤单元,用于对带有故障检测结果的系统日志进行冗余过滤,并将过滤后的系统日志发送至所在的边缘服务器或保存至本地。
进一步地,所述装置还包括预处理单元,用于:在获取系统日志之后,对所述系统日志进行预处理。
进一步地,所述系统日志包括敏感日志和非敏感日志,所述对带有故障检测结果的系统日志进行冗余过滤,包括:判断所述带有故障检测结果的系统日志是否为非敏感日志;若为非敏感日志,则计算所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度,其中T为预设时间阈值;若所述相似度高于预设阈值,则删除所述带有故障检测结果的系统日志以实现冗余过滤。
进一步地,所述计算所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度,包括:分别计算所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的故障位置相似度和故障描述相似度;对所述故障位置相似度和所述故障描述相似度进行加权求和,得到所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度。
进一步地,所述将过滤后的系统日志发送至所在的边缘服务器之前,还包括:将过滤的系统日志进行数据压缩。
进一步地,所述终端包括隐私终端和非隐私终端,所述将过滤后的系统日志发送至所在的边缘服务器或保存至本地,包括:若所述终端为非隐私终端,则将所述过滤后的系统日志发送至所在的边缘服务器;若所述终端为隐私终端,则将过滤后的系统日志保存至本地。
第七方面,本发明实施例还提供了一种故障检测系统,所述系统包括:云端服务器,用于将第一故障检测模型参数发送至每个边缘服务器,以及接收每个所述边缘服务器发送的第二故障检测模型参数,基于所述第二故障检测模型参数更新得到第三故障检测模型参数,并将所述第三故障检测模型参数发送至每个所述边缘服务器;多个边缘服务器,每个边缘服务器用于基于所述第一故障检测模型参数构建得到第一故障检测模型,对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数,并将所述第二故障检测模型参数发送至所述云端服务器,以及接收所述第三故障检测模型参数,根据所述第三故障检测模型参数更新所述第二故障检测模型,并将所述第三故障检测模型参数发送至所覆盖的所有终端;多个终端,每个终端用于在接收到任一故障检测模型参数后启动故障检测模型,对系统日志进行故障检测,得到故障检测结果,并根据所述故障检测结果进行对应的出错处理,以及对带有故障检测结果的系统日志进行冗余过滤,并将过滤后的系统日志发送至所在的边缘服务器或保存至本地。
进一步地,所述终端包括隐私终端和非隐私终端;所述隐私终端用于响应与用户的隐私请求,向所在的边缘服务器提出过滤申请以使所在的边缘服务器将所述隐私终端从所覆盖的终端列表中删除。
进一步地,所述边缘服务器还用于:根据所接收的每条系统日志中的故障检测结果,为每条系统日志添加故障类型标签以作为第二训练数据。
进一步地,所述云端服务器还用于:使用神经网络模型对第一训练数据进行分析,得到初始故障检测模型及初始故障检测模型参数,并将所述初始故障检测模型参数发送至每个所述边缘服务器。
进一步地,所述边缘服务器还用于:将所述第一故障检测模型参数发送至所覆盖的所有终端。
第八方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现各个实施例提供的故障检测模型训练方法或实现各个实施例提供的故障检测方法。
本发明实施例提供的故障检测模型训练方法、故障检测方法、装置及系统,通过传输故障检测模型参数的方式,减少了终端、边缘服务器和云端的数据传输,降低网络带宽使用,提高模型更新效率;并且,通过在边缘服务器进行故障检测模型训练,以及在云端服务对训练得到的故障检测模型进行更新,并将更新后的故障检测模型通过在边缘服务器转发至终端,提高了故障检测模型的精度,同时保护了终端的数据隐私。
附图说明
图1示出了根据本发明实施例的故障检测模型训练方法的示例性流程图;
图2示出了根据本发明实施例的故障检测模型训练方法的示例性流程图;
图3示出了根据本发明实施例的故障检测方法的示例性流程图;
图4示出了根据本发明一个实施例的故障检测模型更新平均时间分布图;
图5示出了根据本发明一个实施例的每次模型更新的传输数据量分布图;
图6示出了根据本发明一个实施例的故障检测精度的数据图;
图7示出了根据本发明实施例的故障检测模型训练装置的结构示意图;
图8示出了根据本发明实施例的故障检测模型训练装置的结构示意图;
图9示出了根据本发明实施例的故障检测装置的结构示意图;
图10示出了根据本发明实施例的故障检测系统的结构示意图;
图11示出了根据本发明一个实施例的故障检测系统进行数据交互、网络构建、模型训练、模型更新和模型检测的流程示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1示出了根据本发明实施例的故障检测模型训练方法的示例性流程图。
该方法应用于边缘服务器,如图1所示,该方法包括:
步骤S101:接收云端服务器发送的第一故障检测模型参数。
具体地,云端服务器可以维护多个边缘服务器S={S1,S2,…,Sn},用于与每个边缘服务器Si进行数据交互,1≤i≤n,n表示边缘服务器的数量。
边缘服务器通常是基站或者功能强大的终端。
第一故障检测模型参数可以为初始故障检测模型参数,也可以为非初始故障检测模型参数。若第一故障检测模型参数为初始故障检测模型参数,则其是云端服务器采用第一训练数据训练神经网络模型后得到;若第一故障检测模型参数为非初始故障检测模型参数,则其为云端服务器上一次更新所得到的故障检测模型参数。
进一步地,该方法还包括:
接收所覆盖的所有终端发送的系统日志;
根据所接收的每条系统日志中的故障检测结果,为每条系统日志添加故障类型标签以作为第二训练数据。
进一步地,接收所覆盖的所有终端发送的系统日志之前,还包括:
终端将系统日志压缩后发送至所在的边缘服务器。
上述实施例,通过终端将系统日志压缩后传输到边缘服务器,极大减少网络传输数据量,降低网络带宽使用,进而降低数据传输时延,从而提高模型更新效率。
具体地,终端为电力终端。每个边缘服务器可以覆盖多个电力终端Ti={Ti,1,Ti,2,…,Ti,k},每个电力终端Ti,j只能被一个边缘服务器覆盖,1≤j≤k,k表示边缘服务器Si覆盖的终端的数量。
系统日志由终端产生,系统日志record的格式为(time,device,detail),其中time和device分别表示系统日志产生实践和系统行为的工作部件,detail表示终端的系统行为描述,用简单的自然语言表述。边缘服务器Si根据系统日志record中的故障检测结果,为每个终端Ti,j发送的每一条日志记录record打标签,成为第二训练数据(record,res),其中res为记录record在终端Ti,j上的故障检测结果。
进一步地,终端包括隐私终端和非隐私终端,接收所覆盖的所有终端发送的系统日志,包括:接收所覆盖的所有非隐私终端发送的系统日志。
具体地,终端基于安全等级分为隐私终端和非隐私终端,若某终端Ti,j为安全等级较高的隐私终端,其系统日志数据不允许其它设备访问,则由终端用户向所在的边缘服务器Si提出过滤申请,边缘服务器Si在其终端列表中删除终端Ti,j,并更新覆盖的终端数量为k-1,此时终端Ti,j只能接收边缘服务器Si的数据,而无法向Si发送数据。
上述实施例,通过根据安全等级,设置隐私终端和非隐私终端,确保了终端数据的隐私保护。
进一步地,若第一故障检测模型参数为初始故障检测模型参数,初始故障检测模型参数是云端服务器使用神经网络模型对第一训练数据进行分析后所得到的初始故障检测模型的参数。
具体地,第一训练数据来自不同电力终端产商,云端服务器使用神经网络模型对格式为<record,res>的第一训练数据进行分析,得到初始故障检测模型Model0,模型参数集合P0={P0,1,P0,2,…,P0,m},其中m为故障检测模型的参数数量,P0,s为初始故障检测模型P0的第s个参数,1≤s≤m。
优选地,神经网络模型为Bi-LSTM模型。
通过采用Bi-LSTM模型对系统日志进行分析,可以构建高精度的故障检测模型。
步骤S102:基于第一故障检测模型参数构建得到第一故障检测模型,并对第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数。
进一步地,对第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数,包括:
根据应用场景选择对应的模型更新策略,采用第二训练数据对第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数。
具体地,可以预先设置不同应用场景对应于不同的模型更新策略,即预先建立应用场景与模型更新策略的对应关系。执行过程中,根据应用场景,调用与之对应的模型更新策略。
进一步地,模型更新策略,包括:周期式更新策略、增量式更新策略和触发式更新策略。
具体地,根据应用场景选择对应的模型更新策略,对位于边缘服务器的第一故障检测模型,即当前边缘服务器的本地模型进行训练,包括:
(1)周期式更新策略(PUpdate):按照规定的时间间隔Period进行本地模型训练,参数Period根据实际情况设定,不同的边缘服务器可以设定不同的时间间隔,一般设定为边缘服务器覆盖区域内所有终端设备的平均故障时间;
(2)增量式更新策略(AUpdate):当边缘服务器收到的日志记录中包含的故障日志数量超过给定阈值NA时进行本地模型训练,参数NA根据实际情况设定,一般设定为该边缘服务器覆盖的终端设备数量的线性函数;
(3)触发式更新策略(TUpdate):当边缘服务器接收到的所有日志记录中包含故障记录时,即res>0时进行本地模型训练,一般适用于覆盖终端数量较少的边缘服务器。
上述实施例,通过不同的模型更新策略进行模型训练,可以持续提高故障检测模型的精度。
步骤S103:将第二故障检测模型参数发送至云端服务器,以供云端服务器基于第二故障检测模型参数更新得到第三故障检测模型参数,并将第三故障检测模型参数发送至每个边缘服务器。
当边缘服务器Si将完成本地模型训练时,将本地模型的参数
Figure BDA0003859318520000121
上传到云端服务器,其中t为本地模型的版本号。
进一步地,将第二故障检测模型参数发送至云端服务器,以供云端服务器基于第二故障检测模型参数更新得到第三故障检测模型参数,包括:
将第二故障检测模型参数发送至云端服务器,以供云端服务器根据应用场景选择对应的模型更新策略,对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数。
进一步地,将第二故障检测模型参数发送至云端服务器,以供云端服务器对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数,包括:
将第二故障检测模型参数发送至云端服务器,以供云端服务器进行如下处理:
对接收到的所有第二故障检测模型参数进行版本检测,保留最新版本;
对所有最新版本的第二故障检测模型参数进行加权处理;
将加权处理后的第二故障检测模型参数进行聚合,生成第三故障检测模型参数。
具体地,云端服务器在接收到各个边缘服务器上传的第二模型参数后,使用模型聚合方法将收到的多个第二模型参数聚合形成故障检测模型新的参数,具体流程如下:
(1)模型更新策略选择:云端服务器根据应用场景选择合适的更新策略,包括周期式更新策略(PUpdate)、增量式更新测量(AUpdate)和触发式更新(TUpdate)三种,具体见前面实施例描述;
(2)参数版本控制:将当前收到的所有本地模型参数的版本进行统一,具体规则如下:
①若收到某边缘服务器Si发送的两个不同版本模型参数
Figure BDA0003859318520000131
和/>
Figure BDA0003859318520000132
则只保留最新版本的模型参数
Figure BDA0003859318520000133
②若收到的第二模型参数版本号包括t1,t2,…,tq,则当前模型更新操作按最大版本号maxversion=max{t1,t2,…,tq}计算,其中q为云端当前接收到的第二模型参数的版本数量;
③对每个第二模型参数
Figure BDA0003859318520000141
进行加权处理,加权系数为/>
Figure BDA0003859318520000142
其中ts为版本号,1≤s≤q;
(3)模型更新:将加权处理后的第二模型参数进行聚合,产生新的故障检测模型参数,若当前版本检测后的第二模型参数为
Figure BDA0003859318520000143
Figure BDA0003859318520000144
则更新后的模型参数为Pupdate=(Pupdate,1,Pupdate,2,…,Pupdate,m),其中/>
Figure BDA0003859318520000145
r为参与模型更新的边缘服务器数量,i1,i2,…,ir为参与模型更新的边缘服务器的编号。
(4)模型下发:云端服务器将更新后的故障检测模型参数,即第三故障检测模型参数Pupdate=(Pupdate,1,Pupdate,2,…,Pupdate,m)下发到每个边缘服务器Si上。
上述实施例,通过不同的模型更新策略进行模型训练,可以均衡模型更新速度和模型精度,适用于不同的应用需求。
步骤S104:根据第三故障检测模型参数更新第二故障检测模型,并将第三故障检测模型参数发送至所覆盖的所有终端,以供终端更新其故障检测模型。
具体地,每个边缘服务器Si根据云端服务器下发的第三故障检测模型参数更新其自身的故障检测模型,并将该参数下发到其覆盖的所有终端Ti,j上以供终端更新其自身故障检测模型,其中1≤i≤n,1≤j≤k,n表示边缘服务器的数量,k表示边缘服务器Si覆盖的终端的数量。
上述实施例,通过传输故障检测模型参数的方式,减少了终端、边缘服务器和云端的数据传输,降低网络带宽使用,提高模型更新效率;并且,通过在边缘服务器进行故障检测模型训练,以及在云端服务对训练得到的故障检测模型进行更新,并将更新后的故障检测模型通过在边缘服务器转发至终端,提高了故障检测模型的精度,同时保护了终端的数据隐私。
图2示出了根据本发明实施例的故障检测模型训练方法的示例性流程图。
该方法应用于云端服务器,如图2所示,该方法包括:
步骤S201:发送第一故障检测模型参数至每个边缘服务器,以供每个边缘服务器基于第一故障检测模型参数发送第二故障检测模型参数至云端服务器。
进一步地,若第一故障检测模型参数为初始故障检测模型参数,则通过如下方式得到:
使用神经网络模型对第一训练数据进行分析后所得到的初始故障检测模型及初始故障检测模型参数。
具体地,第一训练数据来自不同电力终端产商。
步骤S202:基于第二故障检测模型参数更新得到第三故障检测模型参数。
进一步地,步骤S202,包括:
根据应用场景选择对应的模型更新策略,对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数。
具体地,可以预先设置不同应用场景对应于不同的模型更新策略,即预先建立应用场景与模型更新策略的对应关系。执行过程中,根据应用场景,调用与之对应的模型更新策略。
进一步地,对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数,包括:
对接收到的所有第二故障检测模型参数进行版本检测,保留最新版本;对所有最新版本的第二故障检测模型参数进行加权处理;
将加权处理后的第二故障检测模型参数进行聚合,生成第三故障检测模型参数。
具体地,在接收到各个边缘服务器上传的第二模型参数后,使用模型聚合方法将收到的多个第二模型参数聚合形成故障检测模型新的参数,具体流程如下:
(1)模型更新策略选择:云端服务器根据应用场景选择合适的更新策略,包括周期式更新策略(PUpdate)、增量式更新测量(AUpdate)和触发式更新(TUpdate)三种,具体见前面实施例描述;
(2)参数版本控制:将当前收到的所有本地模型参数的版本进行统一,具体规则如下:
①若收到某边缘服务器Si发送的两个不同版本模型参数
Figure BDA0003859318520000161
和/>
Figure BDA0003859318520000162
则只保留最新版本的模型参数
Figure BDA0003859318520000163
②若收到的第二模型参数版本号包括t1,t2,…,tq,则当前模型更新操作按最大版本号maxversion=max{t1,t2,…,tq}计算,其中q为云端当前接收到的第二模型参数的版本数量;
③对每个第二模型参数
Figure BDA0003859318520000164
进行加权处理,加权系数为/>
Figure BDA0003859318520000165
其中ts为版本号,1≤s≤q;
(3)模型更新:将加权处理后的第二模型参数进行聚合,产生新的故障检测模型参数,若当前版本检测后的第二模型参数为
Figure BDA0003859318520000166
Figure BDA0003859318520000167
则更新后的模型参数为Pupdate=(Pupdate,1,Pupdate,2,…,Pupdate,m),其中/>
Figure BDA0003859318520000168
r为参与模型更新的边缘服务器数量,i1,i2,…,ir为参与模型更新的边缘服务器的编号。
(4)模型下发:云端服务器将更新后的故障检测模型参数,即第三故障检测模型参数Pupdate=(Pupdate,1,Pupdate,2,…,Pupdate,m)下发到每个边缘服务器Si上。
上述实施例,通过不同的模型更新策略进行模型训练,可以均衡模型更新速度和模型精度,适用于不同的应用需求。
步骤S203:将第三故障检测模型参数发送至每个边缘服务器,以供每个边缘服务器根据第三故障检测模型参数更新第二故障检测模型,并将第三故障检测模型参数发送至所覆盖的所有终端。
上述实施例,通过传输故障检测模型参数的方式,减少了终端、边缘服务器和云端的数据传输,降低网络带宽使用,提高模型更新效率;并且,通过在边缘服务器进行故障检测模型训练,以及在云端服务对训练得到的故障检测模型进行更新,并将更新后的故障检测模型通过在边缘服务器转发至终端,提高了故障检测模型的精度,同时保护了终端的数据隐私。
图3示出了根据本发明实施例的故障检测方法的示例性流程图。
该方法应用于终端,如图3所示,该方法包括:
步骤S301:获取系统日志。
进一步地,步骤S301之后包括:
对系统日志进行预处理。
具体地,将系统日志record中包含具体的IP地址、网页地址、设备名称等描述系统属性的参数替换为IP、URL、LOCAL等类别名称,降低日志之间的差异性,提高日志的识别精度。
步骤S302:将系统日志输入采用上述各个实施例提供的方法训练得到的故障检测模型,得到故障检测结果,并根据故障检测结果进行对应的出错处理。
具体地,将预处理后的日志输入故障检测模型,得到检测结果res,res=0表示无故障,res∈{1,2,3,…,N}表示有故障,其中每个整数表示一种故障类型,N为可识别的故障类型数量,每种故障终端做出对应的出错处理。
步骤S303:对带有故障检测结果的系统日志进行冗余过滤,并将过滤后的系统日志发送至所在的边缘服务器或保存至本地。
进一步地,系统日志包括敏感日志和非敏感日志,对带有故障检测结果的系统日志进行冗余过滤,包括:
判断带有故障检测结果的系统日志是否为非敏感日志;
若为非敏感日志,则计算带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度,其中T为预设时间阈值;
若相似度高于预设阈值,则删除带有故障检测结果的系统日志以实现冗余过滤。
进一步地,计算带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度,包括:
分别计算带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的故障位置相似度和故障描述相似度;
对故障位置相似度和故障描述相似度进行加权求和,得到带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度。
具体地,若系统日志的故障描述中包含故障敏感词列表Keywords中的词汇,则该系统日志为敏感日志,否则为非敏感日志。
两条系统日志record1=(time1,device1,detail1)和record2=(time2,device2,detail2)的相似度包含故障位置相似度Sdevice和故障描述相似度Sdetail两部分,其相似度为其故障位置相似度与故障描述相似度的加权和,具体如下:
S(r1,r2)=α·Sloc(loc1,loc2)+β·Sdes(des1,des2);
其中,加权系数α和β由用户根据终端的特征设定;
故障位置device1和device2的相似度与其在故障树中的位置相关,采用如下方式得到:
Figure BDA0003859318520000181
maxlength=max{P(Root,device1),P(Root,device2)};
其中,Root为故障树中距离故障位置device1和device2最近的共同祖先结点,P(Root,device1)和P(Root,device2)分别为故障树中Root到device1和device2的路径上结点的数量,maxlength为device1和device2到Root的最长路径上的节点数量;
故障描述detail1和detail2的相似度与其包含的单词相关,若detail1=(w1,w2,…,wa),detail2=(w′1,w′2,…,w′b),其中a和b分别为detail1和detail2包含的单词数量,则其相似度Sdetail(detail1,detail2)如下:
Figure BDA0003859318520000191
其中,|detail1∩detail2|表示故障描述des1和des2中共同包含的单词数量,|detail1∪detail2|表示detail1和detail2中去重后包含的单词数量。
进一步地,将过滤后的系统日志发送至所在的边缘服务器之前,还包括:
将过滤的系统日志进行数据压缩。
上述实施例,通过将系统日志压缩后传输到边缘服务器,大大减少网络传输数据量,降低网络带宽使用,进而降低数据传输时延,从而提高模型更新效率。
进一步地,终端包括隐私终端和非隐私终端,将过滤后的系统日志发送至所在的边缘服务器或保存至本地,包括:
若终端为非隐私终端,则将过滤后的系统日志发送至所在的边缘服务器;
若终端为隐私终端,则将过滤后的系统日志保存至本地。
通过根据安全等级,设置隐私终端和非隐私终端,确保了终端数据的隐私保护。
上述实施例,通过构建端-边-云三层架构,云端负责初始故障检测模型的训练和后续更新,边缘服务器负责本地模型的训练,终端使用故障检测模型进行故障检测,整个过程兼顾了故障检测精度、检测效率和终端的数据隐私;通过对系统日志进行冗余过滤,并将过滤后的系统日志发送至所在的边缘服务器以作为后续训练数据,提高训练数据的有效性和准确性,为后续训练故障检测模型的准确度提供了数据保障。
实施例1
本发明实施例以某能源控制器为终端,部署10个基站作为边缘服务器,1台高性能服务器作为云端,每个基站覆盖10个能源控制器。经测试该能源控制器平均2月发生依次故障,每小时产生约1000条系统日志,故障检测模型采用Bi-LSTM模型。
分别使用本发明实施例提出的三种模型更新策略,该实施例中故障检测模型的更新时间如图4所示。AUpdate的故障日志阈值NA=10,而TUpdate的更新条件是故障日志数量为1。从实施例结果可以看出,周期性更新策略PUpdate在更新周期参数Period确定的情况下不会发生改变,而增量式更新策略AUpdate和触发式更新策略TUpdate的模型更新时间均随着终端数量的增加而降低,原因在于当终端数量增加时系统边缘服务器接收到故障日志的频率增加。
分别使用不同更新策略和数据压缩方法,该实施例中边缘服务器进行本地模型更新时每个终端平均传输的数据量如图5所示。图例X和X-C分别表示更新策略X传输原始日志数据和传输压缩后的日志两种情况。从实施例结果可以看出,日志压缩可以显著降低所有更新策略的数据传输量,而在相同情况下周期性更新策略PUpdate的数据传输量最大,增量式更新策略AUpdate次之,触发式更新策略TUpdate传输的数据量最少,主要原因是PUpdate的平均模型更新时间最长,而TUpdate的平均模型更新时间最短。同时,当终端设备的数量增加,AUpdate和TUpdate的模型更新时间逐步趋近,在日志压缩的情况下两者的数据传输量趋近相等。
使用不同故障检测方法进行故障检测,该实施例中的检测结果准确率如图6所示。图例中KeyWords表示基于关键词匹配的方法,Global表示为全局LSTM模型,即云端利用历史数据训练得到故障检测模型后不再更新,EdgeCloud表示边云协同的LSTM模型。从实施例结果可以看出,KeyWords方法的准确率非常低,因为很多故障类型无法直接通过关键词得到,而Global和EdgeCloud两种方法通过对故障描述进行自然语言识别进行故障识别,精度显著提高。随着日志数据的增加,Global方法不再更新检测模型,导致检测准确率逐渐降低,而EdgeCloud方法利用新增的日志数据不断更新模型,使得模型的检测准确率逐渐提升,随着EdgeCloud的模型更新次数增加,Global方法的准确率与EdgeCloud方法的差距增大。
图7示出了根据本发明实施例的故障检测模型训练装置的结构示意图。
该方法应用于边缘服务器,如图7所示,该装置包括:
第一接收单元701,用于接收云端服务器发送的第一故障检测模型参数。
具体地,云端服务器可以维护多个边缘服务器S={S1,S2,…,Sn},用于与每个边缘服务器Si进行数据交互,1≤i≤n,n表示边缘服务器的数量。边缘服务器通常是基站或者功能强大的终端。第一故障检测模型参数可以为初始故障检测模型参数,也可以为非初始故障检测模型参数。若第一故障检测模型参数为初始故障检测模型参数,则其是云端服务器采用第一训练数据训练神经网络模型后得到;若第一故障检测模型参数为非初始故障检测模型参数,则其为云端服务器上一次更新所得到的故障检测模型参数。
进一步地,该装置还包括训练数据处理单元,用于:
接收所覆盖的所有终端发送的系统日志;
根据所接收的每条系统日志中的故障检测结果,为每条系统日志添加故障类型标签以作为第二训练数据。
进一步地,接收所覆盖的所有终端发送的系统日志之前,还包括:
终端将系统日志压缩后发送至所在的边缘服务器。
上述实施例,通过终端将系统日志压缩后传输到边缘服务器,大大减少网络传输数据量,降低网络带宽使用,进而降低数据传输时延,从而提高模型更新效率。
具体地,终端为电力终端。每个边缘服务器可以覆盖多个电力终端Ti={Ti,1,Ti,2,…,Ti,k},每个电力终端Ti,j只能被一个边缘服务器覆盖,1≤j≤k,k表示边缘服务器Si覆盖的终端的数量。
系统日志由终端产生,系统日志record的格式为(time,device,detail),其中time和device分别表示系统日志产生实践和系统行为的工作部件,detail表示终端的系统行为描述,用简单的自然语言表述。边缘服务器Si根据系统日志record中的故障检测结果,为每个终端Ti,j发送的每一条日志记录record打标签,成为第二训练数据(record,res),其中res为记录record在终端Ti,j上的故障检测结果。
进一步地,终端包括隐私终端和非隐私终端,接收所覆盖的所有终端发送的系统日志,包括:
接收所覆盖的所有非隐私终端发送的系统日志。
具体地,终端基于安全等级分为隐私终端和非隐私终端,若某终端Ti,j为安全等级较高的隐私终端,其系统日志数据不允许其它设备访问,则由终端用户向所在的边缘服务器Si提出过滤申请,边缘服务器Si在其终端列表中删除终端Ti,j,并更新覆盖的终端数量为k-1,此时终端Ti,j只能接收边缘服务器Si的数据,而无法向Si发送数据。
上述实施例,通过根据安全等级,设置隐私终端和非隐私终端,确保了终端数据的隐私保护。
进一步地,若第一故障检测模型参数为初始故障检测模型参数,初始故障检测模型参数是云端服务器使用神经网络模型对第一训练数据进行分析后所得到的初始故障检测模型的参数。
具体地,第一训练数据来自不同电力终端产商,云端服务器使用神经网络模型对格式为<record,res>的第一训练数据进行分析,得到初始故障检测模型Model0,模型参数集合P0={P0,1,P0,2,…,P0,m},其中m为故障检测模型的参数数量,P0,s为初始故障检测模型P0的第s个参数,1≤s≤m。
优选地,神经网络模型为Bi-LSTM模型。
通过采用Bi-LSTM模型对系统日志进行分析,可以构建高精度的故障检测模型。
第一模型处理单元702,用于基于第一故障检测模型参数构建得到第一故障检测模型,并对第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数。
进一步地,对第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数,包括:
根据应用场景选择对应的模型更新策略,采用第二训练数据对第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数。
具体地,可以预先设置不同应用场景对应于不同的模型更新策略,即预先建立应用场景与模型更新策略的对应关系。执行过程中,根据应用场景,调用与之对应的模型更新策略。
进一步地,模型更新策略,包括:周期式更新策略、增量式更新策略和触发式更新策略。
具体地,根据应用场景选择对应的模型更新策略,对位于边缘服务器的第一故障检测模型,即当前边缘服务器的本地模型进行训练,包括:
(1)周期式更新策略(PUpdate):按照规定的时间间隔Period进行本地模型训练,参数Period根据实际情况设定,不同的边缘服务器可以设定不同的时间间隔,一般设定为边缘服务器覆盖区域内所有终端设备的平均故障时间;
(2)增量式更新策略(AUpdate):当边缘服务器收到的日志记录中包含的故障日志数量超过给定阈值NA时进行本地模型训练,参数NA根据实际情况设定,一般设定为该边缘服务器覆盖的终端设备数量的线性函数;
(3)触发式更新策略(TUpdate):当边缘服务器接收到的所有日志记录中包含故障记录时,即res>0时进行本地模型训练,一般适用于覆盖终端数量较少的边缘服务器。
上述实施例,通过不同的模型更新策略进行模型训练,可以持续提高故障检测模型的精度。
第一发送单元703,用于将第二故障检测模型参数发送至云端服务器,以供云端服务器基于第二故障检测模型参数更新得到第三故障检测模型参数,并将第三故障检测模型参数发送至每个边缘服务器。
当边缘服务器Si将完成本地模型训练时,将本地模型的参数
Figure BDA0003859318520000241
上传到云端服务器,其中t为本地模型的版本号。
进一步地,将第二故障检测模型参数发送至云端服务器,以供云端服务器基于第二故障检测模型参数更新得到第三故障检测模型参数,包括:
将第二故障检测模型参数发送至云端服务器,以供云端服务器应用场景选择对应的模型更新策略,对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数。
进一步地,将第二故障检测模型参数发送至云端服务器,以供云端服务器对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数,包括:
将第二故障检测模型参数发送至云端服务器,以供云端服务器进行如下处理:
对接收到的所有第二故障检测模型参数进行版本检测,保留最新版本;
对所有最新版本的第二故障检测模型参数进行加权处理;
将加权处理后的第二故障检测模型参数进行聚合,生成第三故障检测模型参数。
具体地,云端服务器在接收到各个边缘服务器上传的第二模型参数后,使用模型聚合方法将收到的多个第二模型参数聚合形成故障检测模型新的参数,具体流程如下:
(1)模型更新策略选择:云端服务器根据应用场景选择合适的更新策略,包括周期式更新策略(PUpdate)、增量式更新测量(AUpdate)和触发式更新(TUpdate)三种,具体见前面实施例描述;
(2)参数版本控制:将当前收到的所有本地模型参数的版本进行统一,具体规则如下:
①若收到某边缘服务器Si发送的两个不同版本模型参数
Figure BDA0003859318520000251
和/>
Figure BDA0003859318520000252
则只保留最新版本的模型参数
Figure BDA0003859318520000253
②若收到的第二模型参数版本号包括t1,t2,…,tq,则当前模型更新操作按最大版本号maxversion=max{t1,t2,…,tq}计算,其中q为云端当前接收到的第二模型参数的版本数量;
③对每个第二模型参数
Figure BDA0003859318520000254
进行加权处理,加权系数为/>
Figure BDA0003859318520000255
其中ts为版本号,1≤s≤q;/>
(3)模型更新:将加权处理后的第二模型参数进行聚合,产生新的故障检测模型参数,若当前版本检测后的第二模型参数为
Figure BDA0003859318520000256
Figure BDA0003859318520000257
则更新后的模型参数为Pupdate=(Pupdate,1,Pupdate,2,…,Pupdate,m),其中/>
Figure BDA0003859318520000258
r为参与模型更新的边缘服务器数量,i1,i2,…,ir为参与模型更新的边缘服务器的编号。
(4)模型下发:云端服务器将更新后的故障检测模型参数,即第三故障检测模型参数Pupdate=(Pupdate,1,Pupdate,2,…,Pupdate,m)下发到每个边缘服务器Si上。
上述实施例,通过不同的模型更新策略进行模型训练,可以均衡模型更新速度和模型精度,适用于不同的应用需求。
第一更新单元704,用于根据第三故障检测模型参数更新第二故障检测模型,并将第三故障检测模型参数发送至所覆盖的所有终端,以供终端更新其故障检测模型。
具体地,每个边缘服务器Si根据云端服务器下发的第三故障检测模型参数更新其自身的故障检测模型,并将该参数下发到其覆盖的所有终端Ti,j上以供终端更新其自身故障检测模型,其中1≤i≤n,1≤j≤k,n表示边缘服务器的数量,k表示边缘服务器Si覆盖的终端的数量。
上述实施例,通过传输故障检测模型参数的方式,减少了终端、边缘服务器和云端的数据传输,降低网络带宽使用,提高模型更新效率;并且,通过在边缘服务器进行故障检测模型训练,以及在云端服务对训练得到的故障检测模型进行更新,并将更新后的故障检测模型通过在边缘服务器转发至终端,提高了故障检测模型的精度,同时保护了终端的数据隐私。
图8示出了根据本发明实施例的故障检测模型训练装置的结构示意图。
该方法应用于云端服务器,如图8所示,该装置包括:
第二发送单元801,用于发送第一故障检测模型参数至每个边缘服务器,以供每个边缘服务器基于第一故障检测模型参数发送第二故障检测模型参数至云端服务器。
进一步地,若第一故障检测模型参数为初始故障检测模型参数,则通过如下方式得到:
使用神经网络模型对第一训练数据进行分析后所得到的初始故障检测模型及初始故障检测模型参数。
具体地,第一训练数据来自不同电力终端产商。
第二模型处理单元802,用于基于第二故障检测模型参数更新得到第三故障检测模型参数。
进一步地,第二模型处理单元802,还用于:
根据应用场景选择对应的模型更新策略,对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数。
具体地,可以预先设置不同应用场景对应于不同的模型更新策略,即预先建立应用场景与模型更新策略的对应关系。执行过程中,根据应用场景,调用与之对应的模型更新策略。
进一步地,对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数,包括:
对接收到的所有第二故障检测模型参数进行版本检测,保留最新版本;对所有最新版本的第二故障检测模型参数进行加权处理;
将加权处理后的第二故障检测模型参数进行聚合,生成第三故障检测模型参数。
具体地,在接收到各个边缘服务器上传的第二模型参数后,使用模型聚合方法将收到的多个第二模型参数聚合形成故障检测模型新的参数,具体流程如下:
(1)模型更新策略选择:云端服务器根据应用场景选择合适的更新策略,包括周期式更新策略(PUpdate)、增量式更新测量(AUpdate)和触发式更新(TUpdate)三种,具体见前面实施例描述;
(2)参数版本控制:将当前收到的所有本地模型参数的版本进行统一,具体规则如下:
①若收到某边缘服务器Si发送的两个不同版本模型参数
Figure BDA0003859318520000271
和/>
Figure BDA0003859318520000272
则只保留最新版本的模型参数
Figure BDA0003859318520000273
②若收到的第二模型参数版本号包括t1,t2,…,tq,则当前模型更新操作按最大版本号maxversion=max{t1,t2,…,tq}计算,其中q为云端当前接收到的第二模型参数的版本数量;
③对每个第二模型参数
Figure BDA0003859318520000274
进行加权处理,加权系数为/>
Figure BDA0003859318520000275
其中ts为版本号,1≤s≤q;
(3)模型更新:将加权处理后的第二模型参数进行聚合,产生新的故障检测模型参数,若当前版本检测后的第二模型参数为
Figure BDA0003859318520000276
Figure BDA0003859318520000277
则更新后的模型参数为Pupdate=(Pupdate,1,Pupdate,2,…,Pupdate,m),其中/>
Figure BDA0003859318520000281
r为参与模型更新的边缘服务器数量,i1,i2,…,ir为参与模型更新的边缘服务器的编号。
(4)模型下发:云端服务器将更新后的故障检测模型参数,即第三故障检测模型参数Pupdate=(Pupdate,1,Pupdate,2,…,Pupdate,m)下发到每个边缘服务器Si上。
上述实施例,通过不同的模型更新策略进行模型训练,可以均衡模型更新速度和模型精度,适用于不同的应用需求。
第三发送单元803,用于将第三故障检测模型参数发送至每个边缘服务器,以供每个边缘服务器根据第三故障检测模型参数更新第二故障检测模型,并将第三故障检测模型参数发送至所覆盖的所有终端。
上述实施例,通过传输故障检测模型参数的方式,减少了终端、边缘服务器和云端的数据传输,降低网络带宽使用,提高模型更新效率;并且,通过在边缘服务器进行故障检测模型训练,以及在云端服务对训练得到的故障检测模型进行更新,并将更新后的故障检测模型通过在边缘服务器转发至终端,提高了故障检测模型的精度,同时保护了终端的数据隐私。
图9示出了根据本发明实施例的故障检测装置的结构示意图。
该方法应用于终端,如图9所示,该装置包括:
日志获取单元901,用于获取系统日志。
进一步地,该装置还包括预处理单元,用于:
在获取系统日志之后,对系统日志进行预处理。
具体地,将系统日志record中包含具体的IP地址、网页地址、设备名称等描述系统属性的参数替换为IP、URL、LOCAL等类别名称,降低日志之间的差异性,提高日志的识别精度。
故障检测单元902,用于将系统日志输入采用上述各个实施例提供的方法训练得到的故障检测模型,得到故障检测结果,并根据故障检测结果进行对应的出错处理。
具体地,将预处理后的日志输入故障检测模型,得到检测结果res,res=0表示无故障,res∈{1,2,3,…,N}表示有故障,其中每个整数表示一种故障类型,N为可识别的故障类型数量,每种故障终端做出对应的出错处理。
冗余过滤单元903,用于对带有故障检测结果的系统日志进行冗余过滤,并将过滤后的系统日志发送至所在的边缘服务器或保存至本地。
进一步地,系统日志包括敏感日志和非敏感日志,对带有故障检测结果的系统日志进行冗余过滤,包括:
判断带有故障检测结果的系统日志是否为非敏感日志;
若为非敏感日志,则计算带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度,其中T为预设时间阈值;
若相似度高于预设阈值,则删除带有故障检测结果的系统日志以实现冗余过滤。
进一步地,计算带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度,包括:
分别计算带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的故障位置相似度和故障描述相似度;
对故障位置相似度和故障描述相似度进行加权求和,得到带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度。
具体地,若系统日志的故障描述中包含故障敏感词列表Keywords中的词汇,则该系统日志为敏感日志,否则为非敏感日志。
两条系统日志record1=(time1,device1,detail1)和record2=(time2,device2,detail2)的相似度包含故障位置相似度Sdevice和故障描述相似度Sdetail两部分,其相似度为其故障位置相似度与故障描述相似度的加权和,具体如下:
S(r1,r2)=α·Sloc(loc1,loc2)+β·Sdes(des1,des2);
其中,加权系数α和β由用户根据终端的特征设定;
故障位置device1和device2的相似度与其在故障树中的位置相关,采用如下方式得到:
Figure BDA0003859318520000301
maxlength=max{P(Root,device1),P(Root,device2)};
其中,Root为故障树中距离故障位置device1和device2最近的共同祖先结点,P(Root,device1)和P(Root,device2)分别为故障树中Root到device1和device2的路径上结点的数量,maxlength为device1和device2到Root的最长路径上的节点数量;
故障描述detail1和detail2的相似度与其包含的单词相关,若detail1=(w1,w2,…,wa),detail2=(w′1,w′2,…,w′b),其中a和b分别为detail1和detail2包含的单词数量,则其相似度Sdetail(detail1,detail2)如下:
Figure BDA0003859318520000302
其中,|detail1∩detail2|表示故障描述des1和des2中共同包含的单词数量,|detail1∪detail2|表示detail1和detail2中去重后包含的单词数量。
进一步地,将过滤后的系统日志发送至所在的边缘服务器之前,还包括:
将过滤的系统日志进行数据压缩。
上述实施例,通过将系统日志压缩后传输到边缘服务器,大大减少网络传输数据量,降低网络带宽使用,进而降低数据传输时延,从而提高模型更新效率。
进一步地,终端包括隐私终端和非隐私终端,将过滤后的系统日志发送至所在的边缘服务器或保存至本地,包括:
若终端为非隐私终端,则将过滤后的系统日志发送至所在的边缘服务器;
若终端为隐私终端,则将过滤后的系统日志保存至本地。
通过根据安全等级,设置隐私终端和非隐私终端,确保了终端数据的隐私保护。
上述实施例,通过构建端-边-云三层架构,云端负责初始故障检测模型的训练和后续更新,边缘服务器负责本地模型的训练,终端使用故障检测模型进行故障检测,整个过程兼顾了故障检测精度、检测效率和终端的数据隐私;通过对系统日志进行冗余过滤,并将过滤后的系统日志发送至所在的边缘服务器以作为后续训练数据,提高训练数据的有效性和准确性,为后续训练故障检测模型的准确度提供了数据保障。
实施例2
本发明实施例以某能源控制器为终端,部署10个基站作为边缘服务器,1台高性能服务器作为云端,每个基站覆盖10个能源控制器。经测试该能源控制器平均2月发生依次故障,每小时产生约1000条系统日志,故障检测模型采用Bi-LSTM模型。
分别使用本发明实施例提出的三种模型更新策略,该实施例中故障检测模型的更新时间如图4所示。AUpdate的故障日志阈值NA=10,而TUpdate的更新条件是故障日志数量为1。从实施例结果可以看出,周期性更新策略PUpdate在更新周期参数Period确定的情况下不会发生改变,而增量式更新策略AUpdate和触发式更新策略TUpdate的模型更新时间均随着终端数量的增加而降低,原因在于当终端数量增加时系统边缘服务器接收到故障日志的频率增加。
分别使用不同更新策略和数据压缩方法,该实施例中边缘服务器进行本地模型更新时每个终端平均传输的数据量如图5所示。图例X和X-C分别表示更新策略X传输原始日志数据和传输压缩后的日志两种情况。从实施例结果可以看出,日志压缩可以显著降低所有更新策略的数据传输量,而在相同情况下周期性更新策略PUpdate的数据传输量最大,增量式更新策略AUpdate次之,触发式更新策略TUpdate传输的数据量最少,主要原因是PUpdate的平均模型更新时间最长,而TUpdate的平均模型更新时间最短。同时,当终端设备的数量增加,AUpdate和TUpdate的模型更新时间逐步趋近,在日志压缩的情况下两者的数据传输量趋近相等。
使用不同故障检测方法进行故障检测,该实施例中的检测结果准确率如图6所示。图例中KeyWords表示基于关键词匹配的方法,Global表示为全局LSTM模型,即云端利用历史数据训练得到故障检测模型后不再更新,EdgeCloud表示边云协同的LSTM模型。从实施例结果可以看出,KeyWords方法的准确率非常低,因为很多故障类型无法直接通过关键词得到,而Global和EdgeCloud两种方法通过对故障描述进行自然语言识别进行故障识别,精度显著提高。随着日志数据的增加,Global方法不再更新检测模型,导致检测准确率逐渐降低,而EdgeCloud方法利用新增的日志数据不断更新模型,使得模型的检测准确率逐渐提升,随着EdgeCloud的模型更新次数增加,Global方法的准确率与EdgeCloud方法的差距增大。
图10示出了根据本发明实施例的故障检测系统的结构示意图。
如图10所示,该系统包括:
云端服务器1001,用于将第一故障检测模型参数发送至每个边缘服务器1002,以及接收每个边缘服务器1002发送的第二故障检测模型参数,基于第二故障检测模型参数更新得到第三故障检测模型参数,并将第三故障检测模型参数发送至每个边缘服务器1002;
多个边缘服务器1002,每个边缘服务器1002用于基于第一故障检测模型参数构建得到第一故障检测模型,对第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数,并将第二故障检测模型参数发送至云端服务器1001,以及接收第三故障检测模型参数,根据第三故障检测模型参数更新当前的故障检测模型,并将第三故障检测模型参数发送至所覆盖的所有终端1003;
多个终端1003,每个终端1003用于在接收到任一故障检测模型参数后启动故障检测模型,对系统日志进行故障检测,得到故障检测结果,并根据故障检测结果进行对应的出错处理,以及对带有故障检测结果的系统日志进行冗余过滤,并将过滤后的系统日志发送至所在的边缘服务器1002或保存至本地。
进一步地,终端1003包括隐私终端和非隐私终端;
隐私终端用于响应与用户的隐私请求,向所在的边缘服务器提出过滤申请以使所在的边缘服务器将隐私终端从所覆盖的终端列表中删除。
进一步地,边缘服务器1002还用于:
根据所接收的每条系统日志中的故障检测结果,为每条系统日志添加故障类型标签以作为第二训练数据。
进一步地,云端服务器1001还用于:
使用神经网络模型对第一训练数据进行分析,得到初始故障检测模型及初始故障检测模型参数,并将初始故障检测模型参数发送至每个边缘服务器。
进一步地,边缘服务器1002还用于:
将第一故障检测模型参数发送至所覆盖的所有终端。
具体地,将智能电网种的终端设备、基站、云端等构建成为端-边-云三层架构,选取基站或配置较高的终端设备作为边缘服务器,每个终端隶属于一个边缘服务器。终端利用故障检测模型实时进行故障检测,并将系统日志发送至边缘服务器;边缘服务器负责收集其覆盖的终端的系统日志以训练本地检测模型;云端服务器负责初始故障检测模型的训练以及后续的故障检测模型更新。该故障检测系统的数据交互、网络构建、模型训练、模型更新和模型检测过程如图11所示,边缘服务器可以采用上述各个实施例提供的方法进行故障检测模型训练,云端服务器可以采用上述各个实施例提供的方法构建初始故障检测模型以及对后续故障检测模型更新,终端可以采用上述各个实施例提供的方法进行故障检测。
本发明实施例提供的故障检测系统具有如下有益效果:
(1)构建端-边-云三层架构,云端负责初始故障检测模型的训练和后续更新,边缘服务器负责本地模型的训练,终端使用故障检测模型进行故障检测,整个过程兼顾了故障检测精度、检测效率和终端的数据隐私;
(2)通过终端的数据压缩、传输故障检测模型参数等方式减少终端、边缘服务器和云端的数据传输,降低网络带宽使用,提高模型更新效率;
(3)提出三种不同的模型更新策略,可以均衡模型更新速度和模型精度,适用于不同的应用需求。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现各个实施例提供的故障检测模型训练方法或实现各个实施例提供的故障检测方法。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (29)

1.一种故障检测模型训练方法,其特征在于,应用于边缘服务器,所述方法包括:
接收云端服务器发送的第一故障检测模型参数;
基于所述第一故障检测模型参数构建得到第一故障检测模型,并对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数;
将所述第二故障检测模型参数发送至所述云端服务器,以供所述云端服务器基于所述第二故障检测模型参数更新得到第三故障检测模型参数,并将所述第三故障检测模型参数发送至每个所述边缘服务器;
根据所述第三故障检测模型参数更新所述第二故障检测模型,并将所述第三故障检测模型参数发送至所覆盖的所有终端,以供所述终端更新其故障检测模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所覆盖的所有终端发送的系统日志;
根据所接收的每条系统日志中的故障检测结果,为每条系统日志添加故障类型标签以作为第二训练数据。
3.根据权利要求2所述的方法,其特征在于,所述终端包括隐私终端和非隐私终端,所述接收所覆盖的所有终端发送的系统日志,包括:
接收所覆盖的所有非隐私终端发送的系统日志。
4.根据权利要求1所述的方法,其特征在于,若所述第一故障检测模型参数为初始故障检测模型参数,所述初始故障检测模型参数是所述云端服务器使用神经网络模型对第一训练数据进行分析后所得到的初始故障检测模型的参数。
5.根据权利要求2所述的方法,其特征在于,所述对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数,包括:
根据应用场景选择对应的模型更新策略,采用所述第二训练数据对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数。
6.根据权利要求5所述的方法,其特征在于,所述模型更新策略,包括:周期式更新策略、增量式更新策略和触发式更新策略。
7.一种故障检测模型训练方法,其特征在于,应用于云端服务器,所述方法包括:
发送第一故障检测模型参数至每个边缘服务器,以供每个边缘服务器基于所述第一故障检测模型参数发送第二故障检测模型参数至所述云端服务器;
基于所述第二故障检测模型参数更新得到第三故障检测模型参数;
将所述第三故障检测模型参数发送至每个所述边缘服务器,以供每个所述边缘服务器根据所述第三故障检测模型参数更新所述第二故障检测模型,并将所述第三故障检测模型参数发送至所覆盖的所有终端。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第二故障检测模型参数更新得到第三故障检测模型参数,包括:
根据应用场景选择对应的模型更新策略,对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数。
9.根据权利要求8所述的方法,其特征在于,所述对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数,包括:
对接收到的所有第二故障检测模型参数进行版本检测,保留最新版本;对所有最新版本的第二故障检测模型参数进行加权处理;
将加权处理后的第二故障检测模型参数进行聚合,生成第三故障检测模型参数。
10.一种故障检测方法,其特征在于,应用于终端,所述方法包括:
获取系统日志;
将所述系统日志输入采用如权利要求1-6任一所述的方法训练得到的故障检测模型,得到故障检测结果,并根据所述故障检测结果进行对应的出错处理;
对带有故障检测结果的系统日志进行冗余过滤,并将过滤后的系统日志发送至所在的边缘服务器或保存至本地。
11.根据权利要求10所述的方法,其特征在于,所述获取系统日志之后,包括:
对所述系统日志进行预处理。
12.根据权利要求10所述的方法,其特征在于,所述系统日志包括敏感日志和非敏感日志,所述对带有故障检测结果的系统日志进行冗余过滤,包括:
判断所述带有故障检测结果的系统日志是否为非敏感日志;
若为非敏感日志,则计算所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度,其中T为预设时间阈值;
若所述相似度高于预设阈值,则删除所述带有故障检测结果的系统日志以实现冗余过滤。
13.根据权利要求12所述的方法,其特征在于,所述计算所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度,包括:
分别计算所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的故障位置相似度和故障描述相似度;
对所述故障位置相似度和所述故障描述相似度进行加权求和,得到所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度。
14.根据权利要求10所述的方法,其特征在于,所述将过滤后的系统日志发送至所在的边缘服务器之前,还包括:
将过滤的系统日志进行数据压缩。
15.根据权利要求10所述的方法,其特征在于,所述终端包括隐私终端和非隐私终端,所述将过滤后的系统日志发送至所在的边缘服务器或保存至本地,包括:
若所述终端为非隐私终端,则将所述过滤后的系统日志发送至所在的边缘服务器;
若所述终端为隐私终端,则将过滤后的系统日志保存至本地。
16.一种故障检测模型训练装置,其特征在于,应用于边缘服务器,所述装置包括:
第一接收单元,用于接收云端服务器发送的第一故障检测模型参数;
第一模型处理单元,用于基于所述第一故障检测模型参数构建得到第一故障检测模型,并对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数;
第一发送单元,用于将所述第二故障检测模型参数发送至所述云端服务器,以供所述云端服务器基于所述第二故障检测模型参数更新得到第三故障检测模型参数,并将所述第三故障检测模型参数发送至每个所述边缘服务器;
第一更新单元,用于根据所述第三故障检测模型参数更新所述第二故障检测模型,并将所述第三故障检测模型参数发送至所覆盖的所有终端,以供所述终端更新其故障检测模型。
17.根据权利要求16所述的装置,其特征在于,所述装置还包括训练数据处理单元,用于:
接收所覆盖的所有终端发送的系统日志;
根据所接收的每条系统日志中的故障检测结果,为每条系统日志添加故障类型标签以作为第二训练数据。
18.根据权利要求17所述的装置,其特征在于,所述对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数,包括:
根据应用场景选择对应的模型更新策略,采用所述第二训练数据对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数。
19.一种故障检测模型训练装置,其特征在于,应用于云端服务器,所述装置包括:
第二发送单元,用于发送第一故障检测模型参数至每个边缘服务器,以供每个边缘服务器基于所述第一故障检测模型参数发送第二故障检测模型参数至所述云端服务器;
第二模型处理单元,用于基于所述第二故障检测模型参数更新得到第三故障检测模型参数;
第三发送单元,用于将所述第三故障检测模型参数发送至每个所述边缘服务器,以供每个所述边缘服务器根据所述第三故障检测模型参数更新所述第二故障检测模型,并将所述第三故障检测模型参数发送至所覆盖的所有终端。
20.根据权利要求19所述的装置,其特征在于,所述第二模型处理单元,还用于:
根据应用场景选择对应的模型更新策略,对接收到的所有第二故障检测模型参数进行聚合,得到第三故障检测模型参数。
21.一种故障检测装置,其特征在于,应用于终端,所述装置包括:
日志获取单元,用于获取系统日志;
故障检测单元,用于将所述系统日志输入采用如权利要求1-6任一所述的方法训练得到的故障检测模型,得到故障检测结果,并根据所述故障检测结果进行对应的出错处理;
冗余过滤单元,用于对带有故障检测结果的系统日志进行冗余过滤,并将过滤后的系统日志发送至所在的边缘服务器或保存至本地。
22.根据权利要求21所述的装置,其特征在于,所述装置还包括预处理单元,用于:
在获取系统日志之后,对所述系统日志进行预处理。
23.根据权利要求21所述的装置,其特征在于,所述系统日志包括敏感日志和非敏感日志,所述对带有故障检测结果的系统日志进行冗余过滤,包括:
判断所述带有故障检测结果的系统日志是否为非敏感日志;
若为非敏感日志,则计算所述带有故障检测结果的系统日志与后续T时间间隔内的任一非敏感日志的相似度,其中T为预设时间阈值;
若所述相似度高于预设阈值,则删除所述带有故障检测结果的系统日志以实现冗余过滤。
24.一种故障检测系统,其特征在于,所述系统包括:
云端服务器,用于将第一故障检测模型参数发送至每个边缘服务器,以及接收每个所述边缘服务器发送的第二故障检测模型参数,基于所述第二故障检测模型参数更新得到第三故障检测模型参数,并将所述第三故障检测模型参数发送至每个所述边缘服务器;
多个边缘服务器,每个边缘服务器用于基于所述第一故障检测模型参数构建得到第一故障检测模型,对所述第一故障检测模型进行训练,得到第二故障检测模型及第二故障检测模型参数,并将所述第二故障检测模型参数发送至所述云端服务器,以及接收所述第三故障检测模型参数,根据所述第三故障检测模型参数更新所述第二故障检测模型,并将所述第三故障检测模型参数发送至所覆盖的所有终端;
多个终端,每个终端用于在接收到任一故障检测模型参数后启动故障检测模型,对系统日志进行故障检测,得到故障检测结果,并根据所述故障检测结果进行对应的出错处理,以及对带有故障检测结果的系统日志进行冗余过滤,并将过滤后的系统日志发送至所在的边缘服务器或保存至本地。
25.根据权利要求24所述的系统,其特征在于,所述终端包括隐私终端和非隐私终端;
所述隐私终端用于响应与用户的隐私请求,向所在的边缘服务器提出过滤申请以使所在的边缘服务器将所述隐私终端从所覆盖的终端列表中删除。
26.根据权利要求24所述的系统,其特征在于,所述边缘服务器还用于:
根据所接收的每条系统日志中的故障检测结果,为每条系统日志添加故障类型标签以作为第二训练数据。
27.根据权利要求24所述的系统,其特征在于,所述云端服务器还用于:
使用神经网络模型对第一训练数据进行分析,得到初始故障检测模型及初始故障检测模型参数,并将所述初始故障检测模型参数发送至每个所述边缘服务器。
28.根据权利要求24所述的系统,其特征在于,所述边缘服务器还用于:
将所述第一故障检测模型参数发送至所覆盖的所有终端。
29.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现权利要求1-6任一所述的故障检测模型训练方法或实现权利要求7-9任一所述的故障检测模型训练方法或实现权利要求10-15任一所述的故障检测方法。
CN202211159979.8A 2022-09-22 2022-09-22 故障检测模型训练方法、故障检测方法、装置及系统 Pending CN116192620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211159979.8A CN116192620A (zh) 2022-09-22 2022-09-22 故障检测模型训练方法、故障检测方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211159979.8A CN116192620A (zh) 2022-09-22 2022-09-22 故障检测模型训练方法、故障检测方法、装置及系统

Publications (1)

Publication Number Publication Date
CN116192620A true CN116192620A (zh) 2023-05-30

Family

ID=86435135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211159979.8A Pending CN116192620A (zh) 2022-09-22 2022-09-22 故障检测模型训练方法、故障检测方法、装置及系统

Country Status (1)

Country Link
CN (1) CN116192620A (zh)

Similar Documents

Publication Publication Date Title
KR102483025B1 (ko) 운영 유지 시스템 및 방법
CN111143308B (zh) 基于联邦学习的高低压电动机数据处理方法、系统及装置
EP3979080A1 (en) Methods and systems for predicting time of server failure using server logs and time-series data
CN110674189B (zh) 一种智能变电站二次状态监测与故障定位的方法
CN103941675B (zh) 基于无线网络的安全监测管理系统
US9093841B2 (en) Power distribution network event correlation and analysis
CN110046073B (zh) 一种日志采集方法及装置、设备、存储介质
CN103761309A (zh) 一种运营数据处理方法及系统
CN110430081A (zh) 基于指令自动编排的智能化巡检方法以及装置
CN105574604B (zh) 一种面向电网运行事件的监控预判分析系统
CN115858796A (zh) 一种故障知识图谱构建方法及装置
JPWO2019116418A1 (ja) 障害分析装置、障害分析方法および障害分析プログラム
WO2022142013A1 (zh) 基于人工智能的ab测试方法、装置、计算机设备及介质
CN115529315B (zh) 一种云边协同系统
CN111769987B (zh) 基于大数据管理模型的网络信息安全测试系统及方法
CN112434078A (zh) 一种锅炉数据的处理方法、装置、设备及存储介质
CN110602070A (zh) 一种网络安全的自动配置管理系统及方法
CN116192620A (zh) 故障检测模型训练方法、故障检测方法、装置及系统
CN115767601A (zh) 一种基于多维数据的5gc网元自动化纳管方法及装置
CN115169426B (zh) 一种基于相似性学习融合模型的异常检测方法及系统
CN111694752B (zh) 应用测试方法、电子设备及存储介质
JP2022037107A (ja) 障害分析装置、障害分析方法および障害分析プログラム
CN105516283B (zh) 一种提高云计算环境稳定性的装置
CN116760033B (zh) 一种基于人工智能的实时电力需求预测系统
CN117113157B (zh) 一种基于人工智能的台区用电故障检测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination