CN117171213A - 一种基于异构计算机体系的大数据监管系统及方法 - Google Patents

一种基于异构计算机体系的大数据监管系统及方法 Download PDF

Info

Publication number
CN117171213A
CN117171213A CN202311163341.6A CN202311163341A CN117171213A CN 117171213 A CN117171213 A CN 117171213A CN 202311163341 A CN202311163341 A CN 202311163341A CN 117171213 A CN117171213 A CN 117171213A
Authority
CN
China
Prior art keywords
fault
event
snapshot
early warning
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311163341.6A
Other languages
English (en)
Other versions
CN117171213B (zh
Inventor
梅碧峰
李冬冬
翁荣建
张丽青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Axis Technology Co ltd
Original Assignee
Shanghai Axis Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Axis Technology Co ltd filed Critical Shanghai Axis Technology Co ltd
Priority to CN202311163341.6A priority Critical patent/CN117171213B/zh
Publication of CN117171213A publication Critical patent/CN117171213A/zh
Application granted granted Critical
Publication of CN117171213B publication Critical patent/CN117171213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及大数据监管技术领域,具体为一种基于异构计算机体系的大数据监管系统及方法,包括处理流程获取模块、故障数据库建立模块、预警模型分析模块、实时处理预警模块和最佳快照周期分析模块;处理流程获取模块用于提取基于Kappa架构的多源异构数据历史部分处理流程;故障数据库建立模块用于标记Flink实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中;预警模型分析模块用于分析一级故障事件的预警模型;实时处理预警模块用于获取Flink实时流计算引擎对数据流进行处理时设定的实时快照间隔时长,判断是否满足预警模型;最佳快照周期分析模块用于判断Flink实时流计算引擎是否需要实时传输二级预警信号。

Description

一种基于异构计算机体系的大数据监管系统及方法
技术领域
本发明涉及大数据监管技术领域,具体为一种基于异构计算机体系的大数据监管系统及方法。
背景技术
多源异构数据的实时处理分析架构中最为复杂和难以设计的是流数据处理环节,在现有技术中常采用Flink实现流数据的处理,且方法是丰富多样的,可能存在的问题也是多种多样的;为了减少问题出现的概率,现有技术提出了利用设置检查点重启策略维持Flink稳定高效运行的优化解决方案;避免了由于各种原因,Flink流数据处理任务可能会中断的情况;实现了因故障中断的任务的自动重启,保证系统的鲁棒性,需要配置检查点重启策略。其原理是定期对Flink任务进行快照,当任务由于故障而中断时,如果配置了重启策略,程序将从最新的快照位置恢复。
但是在对数据流进行处理分析过程中,不同的快照间隔时长反应出来的实际处理情况不尽相同,所以如何在利用检查点重启策略的基础上合理配置快照间隔时长以提高故障处理的效率以及数据处理的稳定性是需要更进一步研究探索的。
发明内容
本发明的目的在于提供一种基于异构计算机体系的大数据监管系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于异构计算机体系的大数据监管方法,包括以下分析步骤:
步骤S1:提取基于Kappa架构的多源异构数据历史部分处理流程,部分处理流程是指利用服务端数据处理管道接收多源异构数据并发送到消息队列,再通过Flink实时流计算引擎对数据流进行处理,最后将Flink实时流计算引擎输出的数据流进行存储的过程;对数据流进行处理是指对消息队列中的多源异构数据进行抽取、转换和加载;标记Flink实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中;
步骤S2:基于故障数据库,分析故障类型对应类型事件集合的重点故障事件,并输出Flink实时流计算引擎历史记录涉及故障类型最多的一级故障事件;
步骤S3:提取一级故障事件和各故障类型对应类型事件集合的故障关联内容,分析故障关联内容对应的关联关系;基于关联关系,分析一级故障事件的预警模型;
步骤S4:获取Flink实时流计算引擎对数据流进行处理时设定的实时快照间隔时长,当实时快照间隔时长满足一级故障事件的预警模型时,传输一级预警信号;当实时快照间隔时长不满足一级故障预警事件的预警模型且故障数据库实时记录故障事件时,分析每一故障类型对应的最佳快照周期;
步骤S5:基于最佳快照周期,结合同一消息队列记录的历史数据流和实时快照周期,判断Flink实时流计算引擎是否需要实时传输二级预警信号。
进一步的,步骤S1中标记Flink实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中,包括以下分析步骤:
故障事件是指Flink实时流计算引擎在对数据流处理的时长大于预设时长阈值对应的事件;
故障事件记录故障关联内容,故障关联内容包括Flink实时流计算引擎在对数据流处理时插入屏障的位置和快照记录对应数据流处理的快照间隔时长,屏障把数据流分为两部分,一部分是实时快照所包含的数据,另一部分是下一快照所包含的数据;每个屏障携带快照的id;快照是指对系统当前运行状态的存储,以便在系统检测存在故障事件时恢复之前某一个时间点的状态信息,从而继续执行处理;
以故障事件记录的数据流插入屏障后的开始快照前、开始快照时和屏障未对齐时来划分故障类型,开始快照是指数据流下游的算子接收到屏障时进行快照;屏障对齐是指同一算子对多个屏障进行对齐的过程;
将相同故障类型的故障事件存储至一类型事件集合中;且每一类型事件集合记载的每一故障事件对应的快照间隔时长不同,相同快照间隔时长的故障事件只记录存储任一故障事件为特征事件。
进一步的,步骤S2包括以下分析步骤:
提取每一类型事件集合中每一故障事件的平均处理时长T,标记最大值Tmax对应的故障事件为类型事件集合中的重点故障事件;处理时长是指故障发生时刻起检查点重启策略的运行时长;
计算每一类型事件集合中重点故障事件的发生率Y,Y=V/U,其中V表示重点故障事件在所有类型事件集合中记录的次数,U表示类型事件集合的总个数;
输出所有类型事件集合中发生率最大值Ymax对应的重点故障事件为一级故障事件。
分析一级故障事件表明在不同类型的故障中此类故障事件存在的频率较高,则可以说明一级故障事件对应的快照间隔时长对数据流的处理复杂程度较高,且故障率较高。分析快照间隔时长是为了选取在对数据流处理过程中较为稳定、快速有效的快照方式。
进一步的,步骤S3包括:
将一级故障事件和各故障类型对应类型事件集合的所有故障事件按照快照间隔时长的数值进行由大到小的排序,生成第一事件序列;
将一级故障事件和各故障类型对应类型事件集合的所有故障事件按照对应平均处理时长的数值进行由大到小的排序,生成第二事件序列;
若第一事件序列与第二事件序列完全相同,则输出故障关联内容与平均处理时长的关联关系为正相关;若倒序后的第一事件序列与第二事件序列完全相同,则输出故障关联内容与平均处理时长的关联关系为负相关;否则,输出故障关联内容与平均处理时长的关联关系为不相关;
当关联关系为正相关时,提取除去一级故障事件对应的快照间隔时长后剩余故障事件对应快照间隔时长的最大值为目标值;当关联关系为负相关时,提取除去一级故障事件对应的快照间隔时长后剩余故障事件对应快照间隔时长的最小值为目标值;
建立一级故障事件的预警模型输出预警差值Q,Q=|W1-W2|,W1表示一级故障事件记录的平均快照间隔时长,W2表示目标值;
当关联关系为不相关时,设置预警差值为Q1。设置Q1的目的是在不相关情况下与一级故障事件中快照间隔时长的预警程度要高于有关联关系的预警程度;即越接近一级故障事件中的快照间隔时长时,才对其进行预警,避免对无需预警情况下的快照间隔时长做出响应,增加分析资源。
进一步的,步骤S4包括:
获取实时快照间隔时长W0,代入一级故障事件的预警模型输出预警差值Q0,Q0=|W1-W0|,当Q0≤Q1或Q0≤Q时,输出一级预警信号,一级预警表示对监测Flink实时流计算引擎设置的快照间隔时长进行更换;在分析一级故障事件对应的快照间隔时长表示系统分析出最差的快照周期,即便不存在故障响应也建议对快照周期进行修改以保障数据流处理的安全和高效性;
当Q0>Q1或Q0>Q时,不满足一级故障事件对应的预警模型;
获取每一类型事件集合中各故障事件记录的发生次数G和平均处理时长T,进行归一化后计算故障事件的响应指数Z,Z=k1*G+k2*T,k1、k2分别表示均大于0小于1的权重系数,且k1+k2=1;
提取每一类型事件中响应指数最小值Zmin对应的故障事件为高效故障事件,输出高效故障事件对应记录的快照间隔时长为最佳快照周期。
进一步的,步骤S5包括以下分析过程:
获取同一消息队列记录历史数据流中已处理的故障事件,提取故障事件对应频率最高的故障类型为主要故障类型;若不存在已处理的故障事件,以实时记录的故障事件对应的故障类型为主要故障类型;
分析主要故障类型是要保障在同一消息队列中已有处理的故障事件时分析该数据流的重点处理需求,从而提高整体的故障解决效率;
获取主要故障类型对应存储记录的最佳快照周期和实时快照周期;
若实时快照周期与最佳快照周期的间隔时长小于等于预设间隔时长,则继续监测;
若实时快照周期与最佳快照周期的间隔时长大于预设间隔时长,则实时传输二级预警信号;二级预警表示提示更换最佳快照周期。
大数据监管系统,包括处理流程获取模块、故障数据库建立模块、预警模型分析模块、实时处理预警模块和最佳快照周期分析模块;
处理流程获取模块用于提取基于Kappa架构的多源异构数据历史部分处理流程;
故障数据库建立模块用于标记Flink实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中;
预警模型分析模块用于输出Flink实时流计算引擎历史记录涉及故障类型最多的一级故障事件,提取一级故障事件和各故障类型对应类型事件集合的故障关联内容,分析故障关联内容对应的关联关系;基于关联关系,分析一级故障事件的预警模型;
实时处理预警模块用于获取Flink实时流计算引擎对数据流进行处理时设定的实时快照间隔时长,判断是否满足预警模型;
最佳快照周期分析模块用于在不满足预警模型时分析每一故障类型对应的最佳快照周期,并结合同一消息队列记录的历史数据流和实时快照周期,判断Flink实时流计算引擎是否需要实时传输二级预警信号。
进一步的,预警模型分析模块包括一级故障事件分析单元、关联关系分析单元和预警模型建立单元;
一级故障事件分析单元用于提取每一类型事件集合中每一故障事件的平均处理时长,标记最大值对应的故障事件为类型事件集合中的重点故障事件;计算重点故障事件的发生率,输出所有类型事件集合中发生率最大值对应的重点故障事件为一级故障事件;
关联关系分析单元用于生成第一事件序列和第二事件序列,基于序列内的故障事件判断关联关系;
预警模型建立单元用于基于关联关系建立预警模型输出预警差值。
进一步的,最佳快照周期分析模块包括响应指数计算单元、最佳快照周期输出单元和预警分析单元;
响应指数计算单元用于获取每一类型事件集合中各故障事件记录的发生次数和平均处理时长,计算故障事件的响应指数;
最佳快照周期输出单元用于提取每一类型事件中响应指数最小值对应的故障事件为高效故障事件,输出高效故障事件对应记录的快照间隔时长为最佳快照周期;
预警分析单元用于获取同一消息队列记录历史数据流中已处理的故障事件,提取故障事件对应频率最高的故障类型为主要故障类型;若不存在已处理的故障事件,以实时记录的故障事件对应的故障类型为主要故障类型;获取主要故障类型对应存储记录的最佳快照周期和实时快照周期,若实时快照周期与最佳快照周期的间隔时长小于等于预设间隔时长,则继续监测;
若实时快照周期与最佳快照周期的间隔时长大于预设间隔时长,则实时传输二级预警信号;二级预警表示提示更换最佳快照周期。
与现有技术相比,本发明所达到的有益效果是:本发明基于Kappa架构的多源异构数据历史部分处理流程,将处理流程中记录的故障事件以检查点策略应用的不同时期进行故障类型划分,分析同一类型下记录不同快照时长对应的故障事件维护情况,从而筛选出一级预警响应对应的快照间隔时长,用以提醒系统在未发生故障前进行及时响应更换;并且在其余情况下发生故障时,合理推送故障类型对应的最优间隔周期以供系统分析,从而保障数据流处理的安全、高效和稳定性,减少流数据处理的故障率,以及系统对快照间隔时长的灵活智能且有方向性的选择。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于异构计算机体系的大数据监管系统的结构示意图;
图2是本发明一种基于异构计算机体系的大数据监管方法的屏障位置对应故障类型一;
图3是本发明一种基于异构计算机体系的大数据监管方法的屏障位置对应故障类型二;
图4是本发明一种基于异构计算机体系的大数据监管方法的屏障位置对应故障类型三。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图4,本发明提供技术方案:一种基于异构计算机体系的大数据监管方法,包括以下分析步骤:
步骤S1:提取基于Kappa架构的多源异构数据历史部分处理流程,部分处理流程是指利用服务端数据处理管道接收多源异构数据并发送到消息队列,再通过Flink实时流计算引擎对数据流进行处理,最后将Flink实时流计算引擎输出的数据流进行存储的过程;对数据流进行处理是指对消息队列中的多源异构数据进行抽取、转换和加载;标记Flink实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中;
步骤S2:基于故障数据库,分析故障类型对应类型事件集合的重点故障事件,并输出Flink实时流计算引擎历史记录涉及故障类型最多的一级故障事件;
步骤S3:提取一级故障事件和各故障类型对应类型事件集合的故障关联内容,分析故障关联内容对应的关联关系;基于关联关系,分析一级故障事件的预警模型;
步骤S4:获取Flink实时流计算引擎对数据流进行处理时设定的实时快照间隔时长,当实时快照间隔时长满足一级故障事件的预警模型时,传输一级预警信号;当实时快照间隔时长不满足一级故障预警事件的预警模型且故障数据库实时记录故障事件时,分析每一故障类型对应的最佳快照周期;
步骤S5:基于最佳快照周期,结合同一消息队列记录的历史数据流和实时快照周期,判断Flink实时流计算引擎是否需要实时传输二级预警信号。
步骤S1中标记Flink实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中,包括以下分析步骤:
故障事件是指Flink实时流计算引擎在对数据流处理的时长大于预设时长阈值对应的事件;在实时流计算引擎处理数据流发生故障时需要保存状态到检查点,此时需要对数据流进行故障分析,所以会延长数据处理的时长;
故障事件记录故障关联内容,故障关联内容包括Flink实时流计算引擎在对数据流处理时插入屏障的位置和快照记录对应数据流处理的快照间隔时长,屏障把数据流分为两部分,一部分是实时快照所包含的数据,另一部分是下一快照所包含的数据;每个屏障携带快照的id;快照是指对系统当前运行状态的存储,以便在系统检测存在故障事件时恢复之前某一个时间点的状态信息,从而继续执行处理;
以故障事件记录的数据流插入屏障后的开始快照前、开始快照时和屏障未对齐时来划分故障类型,开始快照是指数据流下游的算子接收到屏障时进行快照;屏障对齐是指同一算子对多个屏障进行对齐的过程;
将相同故障类型的故障事件存储至一类型事件集合中;且每一类型事件集合记载的每一故障事件对应的快照间隔时长不同,相同快照间隔时长的故障事件只记录存储任一故障事件为特征事件。
步骤S2包括以下分析步骤:
提取每一类型事件集合中每一故障事件的平均处理时长T,标记最大值Tmax对应的故障事件为类型事件集合中的重点故障事件;处理时长是指故障发生时刻起检查点重启策略的运行时长;
计算每一类型事件集合中重点故障事件的发生率Y,Y=V/U,其中V表示重点故障事件在所有类型事件集合中记录的次数,U表示类型事件集合的总个数;
输出所有类型事件集合中发生率最大值Ymax对应的重点故障事件为一级故障事件。
分析一级故障事件表明在不同类型的故障中此类故障事件存在的频率较高,则可以说明一级故障事件对应的快照间隔时长对数据流的处理复杂程度较高,且故障率较高。分析快照间隔时长是为了选取在对数据流处理过程中较为稳定、快速有效的快照方式。
步骤S3包括:
将一级故障事件和各故障类型对应类型事件集合的所有故障事件按照快照间隔时长的数值进行由大到小的排序,生成第一事件序列;
将一级故障事件和各故障类型对应类型事件集合的所有故障事件按照对应平均处理时长的数值进行由大到小的排序,生成第二事件序列;
若第一事件序列与第二事件序列完全相同,则输出故障关联内容与平均处理时长的关联关系为正相关;若倒序后的第一事件序列与第二事件序列完全相同,则输出故障关联内容与平均处理时长的关联关系为负相关;否则,输出故障关联内容与平均处理时长的关联关系为不相关;
当关联关系为正相关时,提取除去一级故障事件对应的快照间隔时长后剩余故障事件对应快照间隔时长的最大值为目标值;当关联关系为负相关时,提取除去一级故障事件对应的快照间隔时长后剩余故障事件对应快照间隔时长的最小值为目标值;
建立一级故障事件的预警模型输出预警差值Q,Q=|W1-W2|,W1表示一级故障事件记录的平均快照间隔时长,W2表示目标值;
当关联关系为不相关时,设置预警差值为Q1。设置Q1的目的是在不相关情况下与一级故障事件中快照间隔时长的预警程度要高于有关联关系的预警程度;即越接近一级故障事件中的快照间隔时长时,才对其进行预警,避免对无需预警情况下的快照间隔时长做出响应,增加分析资源。
步骤S4包括:
获取实时快照间隔时长W0,代入一级故障事件的预警模型输出预警差值Q0,Q0=|W1-W0|,当Q0≤Q1或Q0≤Q时,输出一级预警信号,一级预警表示对监测Flink实时流计算引擎设置的快照间隔时长进行更换;在分析一级故障事件对应的快照间隔时长表示系统分析出最差的快照周期,即便不存在故障响应也建议对快照周期进行修改以保障数据流处理的安全和高效性;
当Q0>Q1或Q0>Q时,不满足一级故障事件对应的预警模型;
获取每一类型事件集合中各故障事件记录的发生次数G和平均处理时长T,进行归一化后计算故障事件的响应指数Z,Z=k1*G+k2*T,k1、k2分别表示均大于0小于1的权重系数,且k1+k2=1;
提取每一类型事件中响应指数最小值Zmin对应的故障事件为高效故障事件,输出高效故障事件对应记录的快照间隔时长为最佳快照周期。
步骤S5包括以下分析过程:
获取同一消息队列记录历史数据流中已处理的故障事件,提取故障事件对应频率最高的故障类型为主要故障类型;若不存在已处理的故障事件,以实时记录的故障事件对应的故障类型为主要故障类型;
分析主要故障类型是要保障在同一消息队列中已有处理的故障事件时分析该数据流的重点处理需求,从而提高整体的故障解决效率;
获取主要故障类型对应存储记录的最佳快照周期和实时快照周期;
若实时快照周期与最佳快照周期的间隔时长小于等于预设间隔时长,则继续监测;
若实时快照周期与最佳快照周期的间隔时长大于预设间隔时长,则实时传输二级预警信号;二级预警表示提示更换最佳快照周期。
如实施例所示:
图2所示:图2中的屏障点id=1为2和3之间的位置,那么此位置表示开始快照前的故障类型;记录此位置发生的故障事件均存储至屏障点id=1对应的类型事件集合中;每个数字代表的圆表示数据流中要处理的数据;
如图3所示:图3中表示开始快照时的故障类型,因为此时算子已经接收到id=1屏障;
当存在两个数据流且屏障未对齐时发生故障与图3示意相同,但是在未对齐情况下需要恢复到初始状态即图4所示;
表示为三个故障类型,且每一故障类型包含的故障事件如下:
类型一:
故障事件a1:快照间隔时长1min,记录次数为2次,平均处理时长1min;
故障事件a2:快照间隔时长30s,记录次数为1次,平均处理时长50s;
类型二:
故障事件b1:快照间隔时长1min,记录次数为3次,平均处理时长1min;
类型三:
故障事件c1:快照间隔时长15s,记录次数为2次,平均处理时长90s;
故障事件c2:快照间隔时长20s,记录次数为1次,平均处理时长45s;
则类型一的重点故障事件为故障事件a1,类型二的重点故障事件为故障事件b1,类型三的重点故障事件为故障事件c1;
计算发生率,可以得到快照间隔时长为1min对应的故障事件的发生率最高为2/3;故快照间隔时长为1min对应的故障事件为一级预警事件;
生成第一事件序列为:故障事件a1(b1)、故障事件a2、故障事件c2、故障事件c1;
生成第二事件序列为:故障事件a1(b1)、故障事件c1、故障事件a2、故障事件c2;
由上可知关联关系为不相关;
设置预警差值Q1为10s;
获取实时快照间隔时长为52s,则60s-52s=8s<10s,则输出一级预警信号。
大数据监管系统,包括处理流程获取模块、故障数据库建立模块、预警模型分析模块、实时处理预警模块和最佳快照周期分析模块;
处理流程获取模块用于提取基于Kappa架构的多源异构数据历史部分处理流程;
故障数据库建立模块用于标记Flink实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中;
预警模型分析模块用于输出Flink实时流计算引擎历史记录涉及故障类型最多的一级故障事件,提取一级故障事件和各故障类型对应类型事件集合的故障关联内容,分析故障关联内容对应的关联关系;基于关联关系,分析一级故障事件的预警模型;
实时处理预警模块用于获取Flink实时流计算引擎对数据流进行处理时设定的实时快照间隔时长,判断是否满足预警模型;
最佳快照周期分析模块用于在不满足预警模型时分析每一故障类型对应的最佳快照周期,并结合同一消息队列记录的历史数据流和实时快照周期,判断Flink实时流计算引擎是否需要实时传输二级预警信号。
预警模型分析模块包括一级故障事件分析单元、关联关系分析单元和预警模型建立单元;
一级故障事件分析单元用于提取每一类型事件集合中每一故障事件的平均处理时长,标记最大值对应的故障事件为类型事件集合中的重点故障事件;计算重点故障事件的发生率,输出所有类型事件集合中发生率最大值对应的重点故障事件为一级故障事件;
关联关系分析单元用于生成第一事件序列和第二事件序列,基于序列内的故障事件判断关联关系;
预警模型建立单元用于基于关联关系建立预警模型输出预警差值。
最佳快照周期分析模块包括响应指数计算单元、最佳快照周期输出单元和预警分析单元;
响应指数计算单元用于获取每一类型事件集合中各故障事件记录的发生次数和平均处理时长,计算故障事件的响应指数;
最佳快照周期输出单元用于提取每一类型事件中响应指数最小值对应的故障事件为高效故障事件,输出高效故障事件对应记录的快照间隔时长为最佳快照周期;
预警分析单元用于获取同一消息队列记录历史数据流中已处理的故障事件,提取故障事件对应频率最高的故障类型为主要故障类型;若不存在已处理的故障事件,以实时记录的故障事件对应的故障类型为主要故障类型;获取主要故障类型对应存储记录的最佳快照周期和实时快照周期,若实时快照周期与最佳快照周期的间隔时长小于等于预设间隔时长,则继续监测;
若实时快照周期与最佳快照周期的间隔时长大于预设间隔时长,则实时传输二级预警信号;二级预警表示提示更换最佳快照周期。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于异构计算机体系的大数据监管方法,其特征在于,包括以下分析步骤:
步骤S1:提取基于Kappa架构的多源异构数据历史部分处理流程,所述部分处理流程是指利用服务端数据处理管道接收多源异构数据并发送到消息队列,再通过Flink实时流计算引擎对数据流进行处理,最后将Flink实时流计算引擎输出的数据流进行存储的过程;所述对数据流进行处理是指对消息队列中的多源异构数据进行抽取、转换和加载;标记Flink实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中;
步骤S2:基于故障数据库,分析故障类型对应类型事件集合的重点故障事件,并输出Flink实时流计算引擎历史记录涉及故障类型最多的一级故障事件;
步骤S3:提取一级故障事件和各故障类型对应类型事件集合的故障关联内容,分析故障关联内容对应的关联关系;基于关联关系,分析一级故障事件的预警模型;
步骤S4:获取Flink实时流计算引擎对数据流进行处理时设定的实时快照间隔时长,当实时快照间隔时长满足一级故障事件的预警模型时,传输一级预警信号;当实时快照间隔时长不满足一级故障预警事件的预警模型且故障数据库实时记录故障事件时,分析每一故障类型对应的最佳快照周期;
步骤S5:基于最佳快照周期,结合同一消息队列记录的历史数据流和实时快照周期,判断Flink实时流计算引擎是否需要实时传输二级预警信号。
2.根据权利要求1所述的一种基于异构计算机体系的大数据监管方法,其特征在于:所述步骤S1中标记Flink实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中,包括以下分析步骤:
所述故障事件是指Flink实时流计算引擎在对数据流处理的时长大于预设时长阈值对应的事件;
所述故障事件记录故障关联内容,所述故障关联内容包括Flink实时流计算引擎在对数据流处理时插入屏障的位置和快照记录对应数据流处理的快照间隔时长,所述屏障把数据流分为两部分,一部分是实时快照所包含的数据,另一部分是下一快照所包含的数据;每个屏障携带快照的id;所述快照是指对系统当前运行状态的存储,以便在系统检测存在故障事件时恢复之前某一个时间点的状态信息,从而继续执行处理;
以故障事件记录的数据流插入屏障后的开始快照前、开始快照时和屏障未对齐时来划分故障类型,所述开始快照是指数据流下游的算子接收到屏障时进行快照;所述屏障对齐是指同一算子对多个屏障进行对齐的过程;
将相同故障类型的故障事件存储至一类型事件集合中;且每一类型事件集合记载的每一故障事件对应的快照间隔时长不同,相同快照间隔时长的故障事件只记录存储任一故障事件为特征事件。
3.根据权利要求2所述的一种基于异构计算机体系的大数据监管方法,其特征在于:所述步骤S2包括以下分析步骤:
提取每一类型事件集合中每一故障事件的平均处理时长T,标记最大值Tmax对应的故障事件为所述类型事件集合中的重点故障事件;所述处理时长是指故障发生时刻起检查点重启策略的运行时长;
计算每一类型事件集合中重点故障事件的发生率Y,Y=V/U,其中V表示重点故障事件在所有类型事件集合中记录的次数,U表示类型事件集合的总个数;
输出所有类型事件集合中发生率最大值Ymax对应的重点故障事件为一级故障事件。
4.根据权利要求1所述的一种基于异构计算机体系的大数据监管方法,其特征在于:所述步骤S3包括:
将一级故障事件和各故障类型对应类型事件集合的所有故障事件按照快照间隔时长的数值进行由大到小的排序,生成第一事件序列;
将一级故障事件和各故障类型对应类型事件集合的所有故障事件按照对应平均处理时长的数值进行由大到小的排序,生成第二事件序列;
若第一事件序列与第二事件序列完全相同,则输出故障关联内容与平均处理时长的关联关系为正相关;若倒序后的第一事件序列与第二事件序列完全相同,则输出故障关联内容与平均处理时长的关联关系为负相关;否则,输出故障关联内容与平均处理时长的关联关系为不相关;
当关联关系为正相关时,提取除去一级故障事件对应的快照间隔时长后剩余故障事件对应快照间隔时长的最大值为目标值;当关联关系为负相关时,提取除去一级故障事件对应的快照间隔时长后剩余故障事件对应快照间隔时长的最小值为目标值;
建立一级故障事件的预警模型输出预警差值Q,Q=|W1-W2|,W1表示一级故障事件记录的平均快照间隔时长,W2表示目标值;
当关联关系为不相关时,设置预警差值为Q1
5.根据权利要求4所述的一种基于异构计算机体系的大数据监管方法,其特征在于:所述步骤S4包括:
获取实时快照间隔时长W0,代入一级故障事件的预警模型输出预警差值Q0,Q0=|W1-W0|,当Q0≤Q1或Q0≤Q时,输出一级预警信号,所述一级预警表示对监测Flink实时流计算引擎设置的快照间隔时长进行更换;
当Q0>Q1或Q0>Q时,不满足一级故障事件对应的预警模型;
获取每一类型事件集合中各故障事件记录的发生次数G和平均处理时长T,进行归一化后计算故障事件的响应指数Z,Z=k1*G+k2*T,k1、k2分别表示均大于0小于1的权重系数,且k1+k2=1;
提取每一类型事件中响应指数最小值Zmin对应的故障事件为高效故障事件,输出高效故障事件对应记录的快照间隔时长为最佳快照周期。
6.根据权利要求5所述的一种基于异构计算机体系的大数据监管方法,其特征在于:所述步骤S5包括以下分析过程:
获取同一消息队列记录历史数据流中已处理的故障事件,提取故障事件对应频率最高的故障类型为主要故障类型;若不存在已处理的故障事件,以实时记录的故障事件对应的故障类型为主要故障类型;
获取主要故障类型对应存储记录的最佳快照周期和实时快照周期;
若实时快照周期与最佳快照周期的间隔时长小于等于预设间隔时长,则继续监测;
若实时快照周期与最佳快照周期的间隔时长大于预设间隔时长,则实时传输二级预警信号;所述二级预警表示提示更换最佳快照周期。
7.应用权利要求1-5中任一项所述的一种基于异构计算机体系的大数据监管方法的大数据监管系统,其特征在于,包括处理流程获取模块、故障数据库建立模块、预警模型分析模块、实时处理预警模块和最佳快照周期分析模块;
所述处理流程获取模块用于提取基于Kappa架构的多源异构数据历史部分处理流程;
所述故障数据库建立模块用于标记Flink实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中;
所述预警模型分析模块用于输出Flink实时流计算引擎历史记录涉及故障类型最多的一级故障事件,提取一级故障事件和各故障类型对应类型事件集合的故障关联内容,分析故障关联内容对应的关联关系;基于关联关系,分析一级故障事件的预警模型;
所述实时处理预警模块用于获取Flink实时流计算引擎对数据流进行处理时设定的实时快照间隔时长,判断是否满足预警模型;
所述最佳快照周期分析模块用于在不满足预警模型时分析每一故障类型对应的最佳快照周期,并结合同一消息队列记录的历史数据流和实时快照周期,判断Flink实时流计算引擎是否需要实时传输二级预警信号。
8.根据权利要求7所述的大数据监管系统,其特征在于:所述预警模型分析模块包括一级故障事件分析单元、关联关系分析单元和预警模型建立单元;
所述一级故障事件分析单元用于提取每一类型事件集合中每一故障事件的平均处理时长,标记最大值对应的故障事件为所述类型事件集合中的重点故障事件;计算重点故障事件的发生率,输出所有类型事件集合中发生率最大值对应的重点故障事件为一级故障事件;
所述关联关系分析单元用于生成第一事件序列和第二事件序列,基于序列内的故障事件判断关联关系;
所述预警模型建立单元用于基于关联关系建立预警模型输出预警差值。
9.根据权利要求8所述的大数据监管系统,其特征在于:所述最佳快照周期分析模块包括响应指数计算单元、最佳快照周期输出单元和预警分析单元;
所述响应指数计算单元用于获取每一类型事件集合中各故障事件记录的发生次数和平均处理时长,计算故障事件的响应指数;
所述最佳快照周期输出单元用于提取每一类型事件中响应指数最小值对应的故障事件为高效故障事件,输出高效故障事件对应记录的快照间隔时长为最佳快照周期;
所述预警分析单元用于获取同一消息队列记录历史数据流中已处理的故障事件,提取故障事件对应频率最高的故障类型为主要故障类型;若不存在已处理的故障事件,以实时记录的故障事件对应的故障类型为主要故障类型;获取主要故障类型对应存储记录的最佳快照周期和实时快照周期,若实时快照周期与最佳快照周期的间隔时长小于等于预设间隔时长,则继续监测;
若实时快照周期与最佳快照周期的间隔时长大于预设间隔时长,则实时传输二级预警信号;所述二级预警表示提示更换最佳快照周期。
CN202311163341.6A 2023-09-11 2023-09-11 一种基于异构计算机体系的大数据监管系统及方法 Active CN117171213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311163341.6A CN117171213B (zh) 2023-09-11 2023-09-11 一种基于异构计算机体系的大数据监管系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311163341.6A CN117171213B (zh) 2023-09-11 2023-09-11 一种基于异构计算机体系的大数据监管系统及方法

Publications (2)

Publication Number Publication Date
CN117171213A true CN117171213A (zh) 2023-12-05
CN117171213B CN117171213B (zh) 2024-02-02

Family

ID=88940886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311163341.6A Active CN117171213B (zh) 2023-09-11 2023-09-11 一种基于异构计算机体系的大数据监管系统及方法

Country Status (1)

Country Link
CN (1) CN117171213B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117991704A (zh) * 2024-02-05 2024-05-07 河北固基机械设备有限公司 控制柜故障预警系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230097096A1 (en) * 2021-09-29 2023-03-30 Johnson Controls Tyco IP Holdings LLP Systems and methods for representation of event data
CN116048866A (zh) * 2023-03-07 2023-05-02 浙江鹏信信息科技股份有限公司 基于实时流计算引擎的数据故障检测方法、系统及介质
CN116524698A (zh) * 2023-05-05 2023-08-01 深圳市华睿智兴信息科技有限公司 一种基于人工智能的计算机设备故障预警系统及方法
CN116610752A (zh) * 2023-05-19 2023-08-18 新华三技术有限公司 事务性分布式数据同步方法、装置、系统及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230097096A1 (en) * 2021-09-29 2023-03-30 Johnson Controls Tyco IP Holdings LLP Systems and methods for representation of event data
CN116048866A (zh) * 2023-03-07 2023-05-02 浙江鹏信信息科技股份有限公司 基于实时流计算引擎的数据故障检测方法、系统及介质
CN116524698A (zh) * 2023-05-05 2023-08-01 深圳市华睿智兴信息科技有限公司 一种基于人工智能的计算机设备故障预警系统及方法
CN116610752A (zh) * 2023-05-19 2023-08-18 新华三技术有限公司 事务性分布式数据同步方法、装置、系统及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117991704A (zh) * 2024-02-05 2024-05-07 河北固基机械设备有限公司 控制柜故障预警系统

Also Published As

Publication number Publication date
CN117171213B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN117171213B (zh) 一种基于异构计算机体系的大数据监管系统及方法
JP3826940B2 (ja) 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム
CN110825768B (zh) 一种基于云分析的远程电视异常处理方法及系统
JP4313823B2 (ja) 障害対応システム及び障害対応方法
CN103370693A (zh) 重启进程
CN101197621A (zh) 一种对网管系统故障进行远程诊断定位的方法及其系统
CN103166778A (zh) 一种故障自动化智能处理方法及其装置
CN109657420B (zh) 一种基于航天任务的装备保障特性仿真建模方法
CN115358721A (zh) 一种基于大数据的工程监理信息监管系统及方法
CN111400104A (zh) 数据同步方法及装置、电子设备、存储介质
CN106776251A (zh) 一种监控数据处理装置及方法
CN109885933B (zh) 一种基于航天任务的装备保障特性评估方法
CN104158843B (zh) 分布式文件存储系统的存储单元失效检测方法及装置
CN112395298A (zh) 一种基于数据分层思想的数据一致性管理系统
CN113342650B (zh) 分布式系统的混沌工程方法及装置
CN116302652A (zh) 系统报警信息的处理方法、装置及电子设备
CN116107290A (zh) 工业设备故障监测方法、装置、系统及存储介质
JP2006331026A (ja) メッセージ分析システム及びメッセージ分析プログラム
CN107590647A (zh) 船舶管理系统的伺服监管系统
CN109491841A (zh) 一种提高Spark on yarn实时任务可靠性的方法
M’halla et al. Monitoring of a milk manufacturing workshop using chronicle and fault tree approaches
CN114889627A (zh) 一种适用于高级驾驶辅助系统的故障解决方法、系统及车辆
JP5231035B2 (ja) ジョブ処理システムおよびジョブ処理方法
CN109815626B (zh) 一种基于航天任务的装备保障特性评估系统
CN112650565A (zh) 一种应用进程恢复方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant