CN113467407A - 一种分散控制系统故障信息收集方法、系统及设备 - Google Patents

一种分散控制系统故障信息收集方法、系统及设备 Download PDF

Info

Publication number
CN113467407A
CN113467407A CN202111037730.5A CN202111037730A CN113467407A CN 113467407 A CN113467407 A CN 113467407A CN 202111037730 A CN202111037730 A CN 202111037730A CN 113467407 A CN113467407 A CN 113467407A
Authority
CN
China
Prior art keywords
upper computer
information
fault
software
computer software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111037730.5A
Other languages
English (en)
Other versions
CN113467407B (zh
Inventor
薛建中
孙超
杨渊
贾泽冰
程国栋
艾文凯
蔡丹
潘乐
李卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NR Electric Co Ltd
Xian Thermal Power Research Institute Co Ltd
Original Assignee
NR Electric Co Ltd
Xian Thermal Power Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NR Electric Co Ltd, Xian Thermal Power Research Institute Co Ltd filed Critical NR Electric Co Ltd
Priority to CN202111037730.5A priority Critical patent/CN113467407B/zh
Publication of CN113467407A publication Critical patent/CN113467407A/zh
Application granted granted Critical
Publication of CN113467407B publication Critical patent/CN113467407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM]
    • G05B19/4185Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM] characterised by the network communication
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM]
    • G05B19/4183Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM] characterised by data acquisition, e.g. workpiece identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本发明公开了一种分散控制系统故障信息收集方法、系统及设备,包括,在上位机的每个主机节点配置core文件;采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作系统的日志信息;对故障时刻的上位机软件及上位机操作系统的日志信息压缩,得到分散控制系统故障信息收集结果;通过crontab命令调用coredump程序,查询软件异常时的程序调用栈,收集上位机软件的故障信息;避免故障信息被覆盖,获取有效的故障定位信息。

Description

一种分散控制系统故障信息收集方法、系统及设备
技术领域
本发明属于分散控制系统故障告警技术领域,涉及分散控制系统传输数据的处理,特别涉及一种分散控制系统故障信息收集方法、系统及设备。
背景技术
分散控制系统(Distributed Control System,DCS)是利用计算机技术对生产过程进行集中监视、操作、管理和分散控制的一种新型控制设备,其广泛的应用于电力、冶金、化工等工业生产领域;分散控制系统中包括数以千计的各类型测控传感器、通讯设备及计算机系统,是电力等生产企业的核心监控系统,实时上传电厂所有生产数据,并控制系统全部运行参数,在电厂生产过程中发挥着关键作用。
分散控制系统的上位机软件在使用过程中,可能会遇到异常退出等故障信息;现有电厂的分散控制系统的自身运行状态全部记录在系统的运维日志中,目前大多通过系统运维人员人工收集日志和故障数据文件的方式,利用日志和故障数据文件进行故障信息定位;由于系统故障信息分散性及隐蔽性强,收集难度较大,且故障信息收集不及时,将被后续信息覆盖,无法实时获取故障信息。
发明内容
针对现有技术中存在的技术问题,本发明提供了一种分散控制系统故障信息收集方法、系统及设备,以解决现有的故障信息大多采用人工收集,收集难度大,时效性差的技术问题。
为达到上述目的,本发明采用的技术方案为:
本发明提供了一种分散控制系统故障信息收集方法,包括以下步骤:
在上位机的每个主机节点配置core文件;
采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;
解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;
根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作系统的日志信息;
对故障时刻的上位机软件及上位机操作系统的日志信息进行压缩,得到所述分散控制系统故障信息收集结果。
进一步的,core文件在上位机的每个主机节点的路径为/home/core路径。
进一步的,采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中的过程,具体如下:
采用Linux的crontab命令,定时调用Linux的coredump程序,将上位机软件的异常信息保存在core文件中;所述上位机软件的异常信息包括故障时刻的上位机软件的内存状态、寄存器状态及程序调用栈信息。
进一步的,采用Linux下的GDB工具对存储有上位机软件的异常信息的core文件进行解析,得到上位机软件故障时刻的程序调用栈;所述上位机软件故障时刻的程序调用栈保存在soft_time_core_bt.log文件中。
进一步的,故障时刻的上位机软件的日志信息包括软件版本信息、运行日志、软件实时数据库文件及软件操作信息;
所述软件版本信息包括软件版本号、更新日期及MD5校验值;所述软件操作信息包括操作记录、系统告警及软件维护信息。
进一步的,所述软件版本信息存储在soft_info.log文件中;所述运行日志存储在soft_time.log文件中;所述软件实时数据库文件存储在soft_time_db.tar.gz文件中;所述软件操作信息存储在alarm.log文件中。
进一步的,故障时刻的上位机操作系统的日志信息存储在sys.log文件中;所述故障时刻的上位机操作系统的日志信息包括CPU信息、网络负载信息、磁盘负载信息及系统操作日志。
进一步的,对故障时刻的上位机软件及上位机操作系统的日志信息进行压缩,得到blackbox.tar.gz文件,即得到所述分散控制系统故障收集结果。
本发明还提供了一种分散控制系统故障信息收集系统,包括core文件模块、信息收集模块、解析模块、日志信息模块及结果输出模块;
core文件模块,用于在上位机的每个主机节点配置core文件;
信息收集模块,用于采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;
解析模块,用于解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;
日志信息模块,用于根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作系统的日志信息;
结果输出模块,用于对故障时刻的上位机软件及上位机操作系统的日志信息进行压缩,得到所述分散控制系统故障信息收集结果。
本发明还提供了一种分散控制系统故障信息收集设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现所述一种分散控制系统故障信息收集方法的步骤。
与现有技术相比,本发明的有益效果为:
本发明提供了一种分散控制系统故障信息收集方法及系统,采用Linux的crontab命令定时查询上位机软件异常时的程序调用栈;根据上位机软件故障时刻的程序调用栈,收集上位机软件的故障信息,收集难度小,能够实现对故障信息的实时收集,避免了因不及时收集导致故障信息被覆盖,实现了获取有效的故障定位信息。
进一步的,利用Linux的GDB工具解析core文件,分析上位机软件故障时刻的程序调用栈,查看具体的故障问题,实现对软件故障问题的定位,定位收集方式简单,效率较高。
附图说明
图1为本发明所述的一种分散控制系统故障信息收集方法的流程图;
图2为本发明所述的一种分散控制系统故障信息收集系统的结构框图;
图3为本发明所述的一种分散控制系统故障信息收集设备的结构框图。
具体实施方式
为了使本发明所解决的技术问题,技术方案及有益效果更加清楚明白,以下具体实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如附图1所示,本发明提供了一种分散控制系统故障信息收集方法,包括以下步骤:
步骤1、在上位机的每个主机节点处设置core文件。所述core文件的路径为/home/core路径,用于存储上位机软件的异常信息。
步骤2、采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中。
具体的,采用Linux的crontab命令,定时调用Linux的coredump程序,将上位机软件的异常信息保存在core文件中;所述上位机软件的异常信息包括故障时刻的上位机软件的内存状态、寄存器状态及程序调用栈信息。
本发明中,通过crontab命令,可以在固定的间隔时间执行指定的系统指令或shell script脚本;所述间隔时间的单位可以是分钟、小时、日、月、周及以上的任意组合,对周期性的日志分析或数据备份等适应性较好。
步骤3、解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈。采用Linux下的GDB工具对存储有上位机软件的异常信息的core文件进行解析,得到上位机软件故障时刻的程序调用栈;所述上位机软件故障时刻的程序调用栈保存在soft_time_core_bt.log文件中;本发明中,GDB工具是一个由GNU开源组织发布的、UNIX/LINUX操作系统下基于命令行的程序调试工具。
步骤4、根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作系统的日志信息。
故障时刻的上位机软件的日志信息包括软件版本信息、运行日志、软件实时数据库文件及软件操作信息。
所述软件版本信息存储在soft_info.log文件中,所述软件版本信息包括软件版本号、更新日期及MD5校验值;所述运行日志存储在soft_time.log文件中;所述软件实时数据库文件存储在soft_time_db.tar.gz文件中;所述软件操作信息存储在alarm.log文件中;所述软件操作信息包括操作记录、系统告警及软件维护信息。
故障时刻的上位机操作系统的日志信息存储在sys.log文件中;所述故障时刻的上位机操作系统的日志信息包括CPU信息、网络负载信息、磁盘负载信息及系统操作日志。
步骤5、对故障时刻的上位机软件及上位机操作系统的日志信息进行压缩,得到blackbox.tar.gz文件,即得到所述分散控制系统故障信息收集结果。
如附图2所示,本发明还提供了一种分散控制系统故障信息收集系统,包括core文件模块、信息收集模块、解析模块、日志信息模块及结果输出模块。
core文件模块,用于在上位机的每个主机节点配置core文件;信息收集模块,用于采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;解析模块,用于解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;日志信息模块,用于根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作系统的日志信息;结果输出模块,用于对故障时刻的上位机软件及上位机操作系统的日志信息进行压缩,得到所述分散控制系统故障信息收集结果。
如附图3所示,本发明还提供了一种分散控制系统故障信息收集设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现所述一种分散控制系统故障信息收集方法的步骤;所述附图3中的通讯接口,用于接入外部设备,以获取数据。
所述处理器执行所述计算机程序时实现上述分散控制系统故障信息收集方法中的步骤,例如:在上位机的每个主机节点配置core文件;采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作系统的日志信息;对故障时刻的上位机软件及上位机操作系统的日志信息进行压缩,得到所述分散控制系统故障信息收集结果。
或者,所述处理器执行所述计算机程序时实现上述分散控制系统故障信息收集系统中各模块的功能,例如:core文件模块,用于在上位机的每个主机节点配置core文件;信息收集模块,用于采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;解析模块,用于解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;日志信息模块,用于根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作系统的日志信息;结果输出模块,用于对故障时刻的上位机软件及上位机操作系统的日志信息进行压缩,得到所述分散控制系统故障信息收集结果。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序在所述分散控制系统故障信息收集方法设备中的执行过程。
例如,所述计算机程序可以被分割成core文件模块、信息收集模块、解析模块、日志信息模块及结果输出模块,各模块具体功能如下:core文件模块,用于在上位机的每个主机节点处设置core文件;信息收集模块,用于采用crontab程序的定时任务,收集上位机软件的异常信息,并存储在core文件中;解析模块,用于解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;日志信息模块,用于根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作系统的日志信息;结果输出模块,用于对故障时刻的上位机软件及上位机操作系统的日志信息进行压缩,得到所述分散控制系统故障信息收集结果。
所述分散控制系统故障信息收集设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述分散控制系统故障信息收集设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述附图3仅仅是分散控制系统故障信息收集设备的示例,并不构成对分散控制系统故障信息收集设备的限定,可以包括比图示更多的部件,或者组合某些部件,或者不同的部件,例如所述分散控制系统故障信息收集设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器也可以是任何常规的处理器等,所述处理器是所述分散控制系统故障信息收集设备的控制中心,利用各种接口和线路连接整个分散控制系统故障信息收集设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述分散控制系统故障信息收集设备的各种功能。
所述存储器可主要包括存储程序区和存储数据区,所述存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。
此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明所述的分散控制系统故障信息收集方法、系统及设备,采用Linux的crontab命令定时调用Linux的coredump程序,查询上位机软件异常时的程序调用栈;根据上位机软件故障时刻的程序调用栈,收集上位机软件的故障信息,收集难度小,能够实现对故障信息的实时收集,避免了因不及时收集导致故障信息被覆盖,实现了获取有效的故障定位信息。
实施例
以某电厂的分散控制系统为例,本实施例提供了一种分散控制系统故障信息收集方法,具体包括以下步骤:
步骤1、对分散控制系统中,在上位机的每个主机节点处配置core文件,并设置core文件的最大存储空间;所述core文件的路径为/home/core路径;通过配置core文件的最大存储空间,避免了占用大量的磁盘空间。
步骤2、采用Linux的crontab命令,定时调用Linux的coredump程序,收集上位机软件的异常信息;将上位机软件的异常信息保存在core文件中;所述上位机软件的异常信息包括上位机软件异常退出的系统告警;上位机软件的异常信息包括故障时刻的上位机软件的内存状态、寄存器状态及程序调用栈信息;本实施例中,采用Linux的crontab命令,按照预设周期执行调用一次Linux的coredump程序;优选的,本实施例中,采用每分钟定时调用Linux的coredump程序。
步骤3、解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈。具体过程如下:
步骤31、查询告警数据库上个周期内是否有上位机软件异常退出的系统告警;若有,则转至步骤32;
步骤32、查询core文件目录下是否产生了新的core文件;若有,则转至步骤33;
步骤33、采用Linux下的GDB工具对新的core文件进行解析,得到上位机软件故障时刻的程序调用栈,并将上位机软件故障时刻的程序调用栈保存至soft_time_core_bt.log文件中。
步骤4、根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作系统的日志信息;故障时刻的上位机软件的日志信息包括软件版本信息、运行日志、软件实时数据库文件及软件操作信息;所述软件版本信息包括软件版本号、更新日期及MD5校验值,所述软件操作信息包括操作记录、系统告警及软件维护信息;故障时刻的上位机操作系统的日志信息包括CPU信息、网络负载信息、磁盘负载信息及系统操作日志。
具体过程如下:
步骤41、根据上位机软件故障时刻的程序调用栈,查询上位机异常退出软件的版本号、更新日期及MD5校验值;并将上位机异常退出软件的版本号、更新日期及MD5校验值保存至soft_info.log文件中;采用软件名+-V查询软件的版本号;采用1s+软件名查询更新日期,例如1s-lrt alarm;采用MD5sum软件名查询软件的MD5校验值;
步骤42、根据上位机软件故障时刻的程序调用栈,在故障软件的日志保存路径中以故障时间为关键字,在故障软件的日志中进行匹配,得到上位机异常退出软件的运行日志;并将上位机异常退出软件的运行日志保存至soft_time.log文件中;
步骤43、根据上位机软件故障时刻的程序调用栈,在数据库路径中,查找上位机异常退出软件对应的实时数据库文件,保存所示实时数据库文件至soft_time_db.tar.gz文件中;每个上位机软件有固定归属的应用,每个应用有固定的数据库,直接通过上位机软件归属的应用能够查找数据库的日志;
步骤44、根据上位机软件故障时刻的程序调用栈,在告警数据库中,查询故障时段前后预设时间段内的系统操作记录、系统告警、维护记录及维护结果;并将系统操作记录、系统告警、维护记录及维护结果保存至alarm.log中;本实施例中,查询故障时段前后1个小时内的系统操作记录、系统告警、维护记录及维护结果;
步骤45、根据上位机软件故障时刻的程序调用栈,在上位机操作系统/var/log路径中,查询故障时段操作系统的CPU信息、网络负载信息、磁盘负载信息及系统操作日志,并将故障时段操作系统的CPU信息、网络负载信息、磁盘负载信息及系统操作日志保存至sys.log文件中。
步骤5、对步骤4中获取的故障时刻的上位机软件及上位机操作系统的日志信息进行打包,并压缩至blackbox.tar.gz文件,即得到所述分散控制系统故障信息收集结果;上位机系统通过弹窗告警运维人员上位机软件故障信息收集完成;所述告警内容为:“**程序异常退出信息收集完成,请将文件返回至厂家定位”。
本实施例提供的一种分散控制系统故障信息收集系统及设备中相关部分的说明可以参见本实施例所述的分散控制系统故障信息收集方法中对应部分的详细说明,在此不再赘述。
本发明中,采用Linux的crontab命令定时调用Linux的coredump程序,查询上位机软件异常时的程序调用栈;根据上位机软件故障时刻的程序调用栈,收集上位机软件的故障信息,收集难度小,能够实现对故障信息的实时收集,避免了因不及时收集导致故障信息被覆盖,实现了获取有效的故障定位信息。
上述实施例仅仅是能够实现本发明技术方案的实施方式之一,本发明所要求保护的范围并不仅仅受本实施例的限制,还包括在本发明所公开的技术范围内,任何熟悉本技术领域的技术人员所容易想到的变化、替换及其他实施方式。

Claims (10)

1.一种分散控制系统故障信息收集方法,其特征在于,包括以下步骤:
在上位机的每个主机节点配置core文件;
采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;
解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;
根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作系统的日志信息;
对故障时刻的上位机软件及上位机操作系统的日志信息进行压缩,得到所述分散控制系统故障信息收集结果。
2.根据权利要求1所述的一种分散控制系统故障信息收集方法,其特征在于,core文件在上位机的每个主机节点的路径为/home/core路径。
3.根据权利要求1所述的一种分散控制系统故障信息收集方法,其特征在于,采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中的过程,具体如下:
采用Linux的crontab命令,定时调用Linux的coredump程序,将上位机软件的异常信息保存在core文件中;所述上位机软件的异常信息包括故障时刻的上位机软件的内存状态、寄存器状态及程序调用栈信息。
4.根据权利要求1所述的一种分散控制系统故障信息收集方法,其特征在于,采用Linux下的GDB工具对存储有上位机软件的异常信息的core文件进行解析,得到上位机软件故障时刻的程序调用栈;所述上位机软件故障时刻的程序调用栈保存在soft_time_core_bt.log文件中。
5.根据权利要求1所述的一种分散控制系统故障信息收集方法,其特征在于,故障时刻的上位机软件的日志信息包括软件版本信息、运行日志、软件实时数据库文件及软件操作信息;
所述软件版本信息包括软件版本号、更新日期及MD5校验值;所述软件操作信息包括操作记录、系统告警及软件维护信息。
6.根据权利要求5所述的一种分散控制系统故障信息收集方法,其特征在于,所述软件版本信息存储在soft_info.log文件中;所述运行日志存储在soft_time.log文件中;所述软件实时数据库文件存储在soft_time_db.tar.gz文件中;所述软件操作信息存储在alarm.log文件中。
7.根据权利要求1所述的一种分散控制系统故障信息收集方法,其特征在于,故障时刻的上位机操作系统的日志信息存储在sys.log文件中;所述故障时刻的上位机操作系统的日志信息包括CPU信息、网络负载信息、磁盘负载信息及系统操作日志。
8.根据权利要求1所述的一种分散控制系统故障信息收集方法,其特征在于,对故障时刻的上位机软件及上位机操作系统的日志信息进行压缩,得到blackbox.tar.gz文件,即得到所述分散控制系统故障收集结果。
9.一种分散控制系统故障信息收集系统,其特征在于,包括:
core文件模块,用于在上位机的每个主机节点配置core文件;
信息收集模块,用于采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;
解析模块,用于解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;
日志信息模块,用于根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作系统的日志信息;
结果输出模块,用于对故障时刻的上位机软件及上位机操作系统的日志信息进行压缩,得到所述分散控制系统故障信息收集结果。
10.一种分散控制系统故障信息收集设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-8任一项所述一种分散控制系统故障信息收集方法的步骤。
CN202111037730.5A 2021-09-06 2021-09-06 一种分散控制系统故障信息收集方法、系统及设备 Active CN113467407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111037730.5A CN113467407B (zh) 2021-09-06 2021-09-06 一种分散控制系统故障信息收集方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111037730.5A CN113467407B (zh) 2021-09-06 2021-09-06 一种分散控制系统故障信息收集方法、系统及设备

Publications (2)

Publication Number Publication Date
CN113467407A true CN113467407A (zh) 2021-10-01
CN113467407B CN113467407B (zh) 2021-11-16

Family

ID=77864670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111037730.5A Active CN113467407B (zh) 2021-09-06 2021-09-06 一种分散控制系统故障信息收集方法、系统及设备

Country Status (1)

Country Link
CN (1) CN113467407B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6032172A (en) * 1997-05-29 2000-02-29 Sun Microsystems, Inc. Distributed computer process scheduling mechanism
CN101719090A (zh) * 2009-12-25 2010-06-02 珠海市君天电子科技有限公司 对计算机软件系统崩溃原因进行自动分析的方法
CN103678131A (zh) * 2013-12-18 2014-03-26 哈尔滨工业大学 多核处理器的软件故障注入与分析系统
CN104331362A (zh) * 2014-10-17 2015-02-04 宝鸡文理学院 一种软件故障预测方法
CN104636242A (zh) * 2015-02-06 2015-05-20 浪潮电子信息产业股份有限公司 一种基于Linux操作系统的系统日志自动删除重复内容的方法
CN106708734A (zh) * 2016-12-13 2017-05-24 腾讯科技(深圳)有限公司 软件异常检测方法及装置
CN107370808A (zh) * 2017-07-13 2017-11-21 盐城工学院 一种用于对大数据任务进行分布式处理的方法
CN110515820A (zh) * 2019-08-29 2019-11-29 北京浪潮数据技术有限公司 一种服务器故障维护方法、装置、服务器及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6032172A (en) * 1997-05-29 2000-02-29 Sun Microsystems, Inc. Distributed computer process scheduling mechanism
CN101719090A (zh) * 2009-12-25 2010-06-02 珠海市君天电子科技有限公司 对计算机软件系统崩溃原因进行自动分析的方法
CN103678131A (zh) * 2013-12-18 2014-03-26 哈尔滨工业大学 多核处理器的软件故障注入与分析系统
CN104331362A (zh) * 2014-10-17 2015-02-04 宝鸡文理学院 一种软件故障预测方法
CN104636242A (zh) * 2015-02-06 2015-05-20 浪潮电子信息产业股份有限公司 一种基于Linux操作系统的系统日志自动删除重复内容的方法
CN106708734A (zh) * 2016-12-13 2017-05-24 腾讯科技(深圳)有限公司 软件异常检测方法及装置
CN107370808A (zh) * 2017-07-13 2017-11-21 盐城工学院 一种用于对大数据任务进行分布式处理的方法
CN110515820A (zh) * 2019-08-29 2019-11-29 北京浪潮数据技术有限公司 一种服务器故障维护方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN113467407B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN109240886B (zh) 异常处理方法、装置、计算机设备以及存储介质
CN110069572B (zh) 基于大数据平台的hive任务调度方法、装置、设备及存储介质
CN107832196B (zh) 一种用于实时日志异常内容的监测装置及监测方法
CN103023984B (zh) 终端应用服务器及其应用日志过滤方法
CN106528372B (zh) 一种程序运行监视系统和方法
CN107357731A (zh) 进程产生core dump问题的监控、分析和处理方法
CN113835921A (zh) 接口服务异常的处理方法、装置、设备和存储介质
CN110515799B (zh) 基于python语言的MySQL监控系统及实现方法
CN111124552A (zh) 一种基于自动化技术的ppt自动制作机器人及制作方法
CN113467407B (zh) 一种分散控制系统故障信息收集方法、系统及设备
CN108228417A (zh) 车联网日志处理方法及处理装置
CN111708576A (zh) 跨操作系统的设备网卡适配和管理方法、装置及系统
CN115469594A (zh) 一种数字孪生监控系统
CN113472881B (zh) 在线终端设备的统计方法和装置
CN202736049U (zh) 一种基于soa模式的档案管理系统
CN115840656A (zh) 一种基于故障自愈的应用程序自动化运维方法和系统
CN115525392A (zh) 容器监控方法、装置、电子设备及存储介质
CN114911578A (zh) 存储系统监控及故障收集方法、装置、终端及存储介质
CN113176973A (zh) Psu电源黑盒日志时间戳记录方法、装置、设备及介质
CN112241152A (zh) 一种基于mes的数据采集与分析系统
CN111177116B (zh) 一种数据库智能管理平台及其管理方法
CN111309790A (zh) 基于maxcomputer数据库的自动ETL配置方法及装置、控制系统
CN113810250B (zh) 一种消息跟踪方法、系统及设备
CN116032021B (zh) 新能源场站一体化监控方法、系统、设备及存储介质
CN106991038A (zh) 基于java采集器的服务监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant