CN108710544B - 一种数据库系统的进程监控方法及轨道交通综合监控系统 - Google Patents

一种数据库系统的进程监控方法及轨道交通综合监控系统 Download PDF

Info

Publication number
CN108710544B
CN108710544B CN201810231265.0A CN201810231265A CN108710544B CN 108710544 B CN108710544 B CN 108710544B CN 201810231265 A CN201810231265 A CN 201810231265A CN 108710544 B CN108710544 B CN 108710544B
Authority
CN
China
Prior art keywords
abnormal
business process
information
preset time
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810231265.0A
Other languages
English (en)
Other versions
CN108710544A (zh
Inventor
张雪庆
曹瑞兴
刘见
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense TransTech Co Ltd
Original Assignee
Hisense TransTech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense TransTech Co Ltd filed Critical Hisense TransTech Co Ltd
Priority to CN201810231265.0A priority Critical patent/CN108710544B/zh
Publication of CN108710544A publication Critical patent/CN108710544A/zh
Application granted granted Critical
Publication of CN108710544B publication Critical patent/CN108710544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • G06Q50/40

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了数据库系统的进程监控方法,应用于轨道交通综合监控系统,该方法包括获取业务进程的第一时间戳信息,若在第一预设时长内未接收到所述第一时间戳信息,标记该业务进程为异常业务进程,统计该异常业务进程在第二预设时长内发生异常的频数值,所述第二预设时长大于所述第一预设时长,若所述频数大于或等于预设异常阈值,标注该异常的业务进程为故障,系统不再重启该业务进程,并产生报警信息。通过对持续异常的业务进程的监控,避免资源的浪费,并对持续异常的业务进程向运行维护人员报警,提高系统的可靠性。

Description

一种数据库系统的进程监控方法及轨道交通综合监控系统
技术领域
本发明实施例涉及轨道交通监控技术领域,尤其涉及一种数据库系统的进程的监控方法及交通综合监控系统。
背景技术
轨道交通综合监控系统承担着对城市轨道交通控制中心和车站电力、环控、信号、火灾报警等多个子系统设备进行监控的重大任务,是地铁正常运营和救灾指挥的基本保证,涉及到人身和设备的安全。因此,综合监控系统对于可靠性和安全性的要求极高。
在综合监控系统中承担核心功能的实时数据库系统通常通过进程监控程序对整个系统进行运行监护,以在系统某些进程异常时,能够进行异常拉起等操作,以提高综合监控系统的可用性和可靠性。现有技术中对实时数据库系统中进程监护逻辑是单独启动一个线程,负责系统进程的定期检测,若发现任何进程超时未更新时间戳,则认为进程异常,然后去检查该进程是否还存在,如果存在则进行强杀并拉起;若某进程持续性异常,则会导致系统重复进行强杀、重启等操作,造成资源的浪费以及系统维护不及时,导致系统可靠性的降低。
发明内容
本发明实施例提供一种数据库系统的进程监控方法及轨道交通综合监控系统,用以监控持续异常的业务进程,避免资源的浪费,并对持续异常的业务进程向运行维护人员报警,提高系统的可靠性。
本发明提供一种数据库系统的进程监控方法,应用于轨道交通综合监控系统,其特征在于,包括:
获取业务进程的第一时间戳信息;
若在第一预设时长内未接收到所述第一时间戳信息,标记该业务进程为异常业务进程;
统计该异常业务进程在第二预设时长内的频数值,所述第二预设时长大于所述第一预设时长;
若所述频数值大于或等于预设异常阈值,在进程信息表中标注该异常的业务进程为故障业务进程,系统不再重启该业务进程,并产生报警信息。
进一步地,所述进程信息表包括所述业务进程所属的子系统号、节点号以及所述业务进程的ID号、注册状态、故障状态、时间戳信息,所述进程信息表由系统配置表在进程信息访问库中自动生成,所述系统配置表包括对节点定义表、实时数据库部署表以及系统进程表的参数设置。
示例地,标记异常业务进程包括以下步骤:
当第一预设时长内未接收到所述第一时间戳信息时,在所述进程信息表中查询未更新第一时间戳信息的业务进程的注册状态;
若所述注册状态为已注册,标记该业务进程为异常业务进程。
优选地,所述第二预设时长为所述第一预设时长的整数倍。
示例地,所述数据库系统的进程包括业务进程、看门狗监控进程以及管理进程,所述管理进程用于获取所述第一时间戳信息。
可选地,所述管理进程向所述看门狗监控进程发送第二时间戳信息,所述看门狗监控进程、所述业务进程向所述管理进程发送第一时间戳信息,所述所述看门狗监控进程、所述业务进程以及所述管理进程之间通过共享所述进程信息访问库的方式实现进程间通信。
可选地,所述统计该异常业务进程在第二预设时长内的频数值,具体包括:
建立异常业务进程表,用以记录该异常业务进程的ID以及该异常业务进程的故障信息;
计算该异常业务进程在第二预设时长内出现在所述异常业务进程表内的频数值;
在超过第二预设时长范围时,清除所述异常业务进程表内的记录的异常业务进程ID以及故障信息。
优选地,所述故障信息至少包括所述异常业务进程的故障发生时间,所述故障发生时间为所述第一预设时长内未获取到所述第一时间戳信息的时刻。
可选地,所述记录异常业务进程具体包括:
在所述异常业务进程表中查找该异常业务进程的ID是否存在,若该异常业务进程的ID已存在,在该ID后增加该异常业务进程的故障信息;
若该异常业务进程的ID不存在,记录该异常业务进程的ID以及所述故障信息。
一种轨道交通综合监控系统,包括:
获取模块,所述获取模块用于获取业务进程的第一时间戳信息;
标记模块,若所述获取模块在第一预设时长内未接收到所述第一时间戳信息,所述标记模块标记该业务进程为异常业务进程;
统计模块,用于统计该异常业务进程在第二预设时长内发生异常的频数值,其中,所述第二预设时长大于所述第一预设时长;
判断模块,用于判断当所述频数大于或等于预设异常阈值时,标注该异常的业务进程为故障业务进程;
处理模块,用于通知系统不再重启该业务进程,并产生报警信息。
本申请提供一种数据库系统的进程监控方法,能定期获取业务进程的时间戳信息,标记异常的业务进程,当判断该异常的业务进程在预设时间内发生异常的次数超过某一阈值时,则认为该业务进程为持续异常,将其标记为故障业务进程,区别于现有技术中,系统对该持续异常的业务进程重复不断的监测、重启与退出等操作,以及缺少及时的报警机制,本申请提供的进程监控方法不再重启该业务进程,并产生报警信息以通知运行维护人员现场处理,避免了重复不断的监测、重启与退出等操作造成的资源的浪费,以及对其他正常运行的业务进程的妨碍,及时通知现场调度维护人员处理,以分析和排查该持续异常业务的具体故障所在,提高了系统的可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种系统架构的示意图;
图2为本发明实施例提供的一种进程监控方法的流程示意图;
图3为本发明实施例提供的一种标记异常业务进程的流程示意图;
图4为本发明实施例提供的一种统计异常业务进程频数值的流程示意图;
图5本发明实施例提供的一种交通综合监控系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示例性示出了本发明实施例所适用的轨道交通综合监控系统架构,该系统架构主要包括底层硬件设备、DAQ(Data Acquisition,数据采集)系统,包含数据采集服务和采集监控调试系统,数据采集软件部署在采集服务器上,实现数据通信通道的管理和数据采集,支持MODBUS、OPC等标准协议;采集监控调试系统:采集监控调试子系统用于为采集器的监控和调试提供一个统一的工具和服务;主用数据库、备用数据库,用于存储实时采集的数据、发送给设备的数据,组态信息、报警及事件信息、系统状态信息,提供各功能模块间的隔离,使功能模块内的修改尽可能不影响其他功能模块,改善系统的可靠性,降低系统维护及工程实施的费用;HMI(Human Machine Interface,人机接口)主要包括人机界面组态软件与人机界面运行态软件,其中人机界面组态软件是指人机界面的组态部分,提供给工程实施人员使用,主要用来绘制画面;人机界面运行态软件是指人机界面的运行部分,部署在操作员工作站上,操作人员通过统一的图形用户界面完成对轨道交通各子系统各种设备的监视和控制功能。本发明实施例主要通过上述系统架构中的主用数据库中实现。
本发明实施例一提供的一种数据库系统的进程的监控方法,应用于轨道交通综合监控系统,其中,数据库系统的进程包括业务进程、看门狗监控进程以及管理进程,该管理进程采用轮询的方式定时获取第一时间戳信息,所述管理进程向所述看门狗监控进程发送第二时间戳信息,所述看门狗监控进程、所述业务进程向上述管理进程发送第一时间戳信息,所述看门狗监控进程、所述业务进程以及所述管理进程之间通过共享所述进程信息访问库的方式实现进程间通信。进程的监控方法可以如图2所示的流程。
如图2所示,进程的监控方法的具体步骤包括:
步骤201,获取业务进程的第一时间戳信息,其中,业务进程为轨道交通综合监控实时数据库系统中的业务进程,业务进程在正常运行时会定时更新第一时间戳信息,上述管理进程若在第一预设时长范围内未接收到该第一时间戳信息,则标记该业务进程为异常业务进程;若在第一预设时长范围内接收到第一时间戳信息,则转为获取下一业务进程的第一时间戳信息。
步骤202,统计该异常业务进程在第二预设时长内发生异常的频数值,其中,第二预设时长大于第一预设时长。
可选地,第二预设时长为第一预设时长的整数倍,使得在第二预设时长的统计周期内,在上述整数倍的第一预设时长内,统计的第一时间戳信息为完整的,以保证在统计业务进程发生异常的频数值的可用性与准确性。
步骤203,比较上述异常业务进程的频数值与预设的异常阈值之间的大小关系。
步骤204,若该频数值大于或等于预设的异常阈值,则标注该异常业务进程为故障状态,系统不再重启该异常业务进程,并产生报警信息,其中,预设的异常阈值为第二预设时长范围内上述业务进程所允许的发生异常计数的最大值,考虑到业务进程在运行时的偶然性,允许业务进程在一定时间内发生异常,该异常阈值为人为设定,例如在半小时内允许某个业务进程发生异常的次数为5次,则异常阈值为5,若在半小时内,该业务进程发生异常的次数超过了5次,则认为该业务进程为持续异常。
造成该业务进程持续异常的原因可能是该进程所依赖的资源永久性损坏,在这种情形下,即使系统再将其启动,该业务进程依然有很大的可能性再次发生异常,而系统会重复大量的监测、重启、退出等操作,造成内存的不利占用与资源的浪费,不利于系统的整体运行,本申请针对这类持续异常的业务进程,系统不再将其启动,并且在进程信息表中将其标记为“故障”状态,并产生报警信息,系统中的报警进程检测到该报警信息,获取到故障的业务进程的进程信息,通知运行维护人员进行人工处理。
步骤205,若上述异常业务进程的频数值小于预设的异常阈值,则系统重启该异常业务进程,使其恢复正常的运行。
示例性地,在上述进程的监控方法中,业务进程至少包括测点处理进程、命令处理进程、报警处理进程、历史处理进程等在内的实时数据库系统中的业务进程,且业务进程的所有线程都继承于统一的基类,在构造该线程基类时,可以传入死锁监测超时时间,即第一预设时长。在每一次调用线程处理函数之前,线程基类会将本次执行加入到死锁检测线程进行跟踪管理。死锁检测线程类负责对每个线程调用进行监测,管理的方式为:每次线程业务函数的执行都加入一个管理队列中,如果线程业务函数正常处理完成,则将该信息从管理队列里删除;如果线程业务处理函数未处理完成,则死锁监测线程每隔一段时间检查一下该线程业务处理函数是否处理超时,如果不超时则继续检查,如果超时了,即在第一预设时长范围内未接收到业务进程的第一时间戳信息,则采用空指针引用的方式,实现进程的自断言退出。
进一步地,本申请提供的数据库系统的进程监控方法还包括,创建系统配置表,该系统配置表至少包括对节点定义表、实时数据库部署表以及系统进程表的参数设置。
示例地,节点定义表至少包括对系统包含的多个计算机节点以及所述多个计算机节点包含的节点号、网卡数量和网卡地址的信息的定义;当系统在某一个计算机节点上部署启动时,系统根据计算机阶段的IP信息,就可以查询节点定义表,获取该计算机在系统中的节点号等信息,表1示例性的给出了节点定义表包含的内容。
表1
列名 列名描述 数据类型
id 节点号 INTEGER
name 节点名 VARchar(32)
description 节点描述 VARchar(64)
station_id 所属车站 INTEGER
type 节点类型 INTEGER
nic_num 网卡数量 INTEGER
nic1_address 网卡1地址 VARchar(16)
nic1_ping 网卡1检测地址 VARchar(16)
nic2_address 网卡2地址 VARchar(16)
nic2_ping 网卡2检测地址 VARchar(16)
示例地,实时数据库部署表至少包括对系统中所述多个计算机节点在系统中对应运行的子系统的定义。当系统在某一个计算机节点上部署启动时,根据节点定义表获取到的该计算机节点号,便可以获得该计算机节点在整个系统中承担的职责。表2示例性地给出了实时数据库部署表所包含的内容。
表2
Figure BDA0001602855620000071
Figure BDA0001602855620000081
示例地,系统进程表定义了系统中每一个子系统需要运行的进程列表以及每个进程的进程优先级、启动命令参数。当系统在某一个计算机节点上部署启动时,获取到该计算机节点需要运行哪些子系统的实时数据库系统之后,便可以根据系统进程表,获取到该计算机阶段所需要运行的所有进程列表以及每个进程的进程优先级、启动命令参数等。所述系统进程表按照所述业务进程的重要性将所述业务进程划分为关键、重要和普通三个优先级,用以在所述业务进程发生异常时按照所述优先级重启所述业务进程。表3示例性地给出了系统进程表所包含的内容。
表3
列名 列名描述 数据类型
name 进程名 VARchar(64)
subsystem_id 子系统号 INTEGER
priority 进程优先级 INTEGER
command_para 启动命令参数 INTEGER
根据上述三张系统配置表,在进程信息访问库中自动生成进程信息表,避免了传统的数据库系统进程监护程序需要为每个计算机节点手动配置需要监护的进程列表、程序所在路径、程序启动参数等内容,手动操作繁琐,容易出错的问题。该进程信息表包括系统内业务进程的所属子系统号、节点号以及所述业务进程的ID号、注册状态、故障状态、时间戳信息,表4示例性地给出了进程信息表的结构,若业务进程为持续异常时,其“是否故障”一栏对应的字段为“真”,则指示该业务进程为持续异常,需要通知运行维护人员人工处理。
表4
列名 列名描述 数据类型
region_id 域号 INTEGER
subsystem_id 子系统号 INTEGER
node_id 节点号 INTEGER
proc_name 进程名称 VARchar(100)
proc_id 进程号 INTEGER
regist 是否注册 INTEGER
time 时间戳 INTEGER
failure 是否故障 INTEGER
示例地,如图3所示,标记异常业务进程包括以下步骤:
步骤301,当第一预设时长内未接收到该业务进程的第一时间戳信息时,在上述进程信息表中查询该未更新第一时间戳信息的业务进程的注册状态;
步骤302,若该业务进程的注册状态为已注册,标记该业务进程为异常业务进程,在实际进程列表中检查该业务进程的ID是否存在,若该业务进程的ID存在实际进程队列中,则认为该业务进程发生了死锁,则继续等待该业务进程自断言退出;若该业务进程的ID不存在实际进程队列中,则系统将该业务进程重启。
若该业务进程的注册状态为未注册,则不对该业务进程进行处理。
示例地,所述管理进程向所述看门狗监控进程发送第二时间戳信息,所述看门狗监控进程、所述业务进程向所述管理进程发送第一时间戳信息,形成了看门狗监控进程与所述管理进程之间互相监控的过程,确保整个系统在运行过程中不会因为任意一个进程异常退出而停止服务,保证了系统运行的可靠性。
所述看门狗监控进程与所述业务进程、以及所述管理进程之间通过共享进程信息访问库的方式实现进程间通信,包括业务进程在启动时,调用进程信息访问库的接口向系统中的管理进程注册,在业务进程退出时,调用进程信息访问库的接口向系统中的管理进程注销,避免了各进程之间的直接调用与耦合,提高系统的可靠性。在业务进程正常运行过程中,进程信息访问库自动向系统中的管理进程更新时间戳。进程信息访问库实现上述功能的方式是:业务进程启动时,向进程信息内存库表中添加一条记录。业务进程注册时,更新进程信息内存库表中该进程记录的注册字段为真。业务进程注销时,更新进程信息内存库表中该进程记录的注册字段为假。进程信息访问库中的定时线程负责每隔一段时间更新进程信息内存库表中该进程记录的时间戳字段。
示例地,统计异常业务进程在第二预设时长内的频数值具体可以包括以下步骤:
步骤401,建立异常业务进程表,用以记录该异常业务进程的ID以及该异常业务进程的故障信息,该故障信息至少包括所述异常业务进程的故障发生时间,所述故障发生时间为所述第一预设时长内未获取到所述第一时间戳信息的时刻;首先,在所述异常业务进程表中查找该异常业务进程的ID是否存在,若该异常业务进程的ID已存在,在该异常业务进程的上一条所述故障信息的顺序后记录该业务进程最新的故障信息;若该异常业务进程的ID不存在,记录该异常业务进程的ID及其故障信息。
步骤402,计算该异常业务进程在第二预设时长内出现在所述异常业务进程表内的频数值;
当统计时长超过第二预设时长范围时,清除该异常业务进程表内的记录的所有异常业务进程ID及其故障信息,以进入下一个统计周期。
与现有的技术相比,本申请实施例一提供的技术方案的有益技术效果为:
本申请实施例一提供一种数据库系统的进程监控方法,能定期获取业务进程的时间戳信息,标记异常的业务进程,当判断该异常的业务进程在预设时间内发生异常的次数超过某一阈值时,则认为该业务进程为持续异常,将其标记为故障业务进程,区别于现有技术中,系统对该持续异常的业务进程重复不断的监测、重启与退出等操作,以及缺少及时的报警机制,本申请提供的进程监控方法不再重启该业务进程,并产生报警信息以通知运行维护人员现场处理,避免了重复不断的监测、重启与退出等操作造成的资源的浪费,以及对其他正常运行的业务进程的妨碍,及时通知现场调度维护人员处理,以分析和排查该持续异常业务的具体故障所在,提高了系统的可靠性。
基于相同的技术构思,本申请还提供一种轨道交通综合监控系统,如图5所示,图5为本申请实施例提供的一种综合监控系统的结构示意图,包括:
获取模块501,所述获取模块用于获取业务进程的第一时间戳信息;
标记模块502,若所述获取模块在第一预设时长内未接收到所述第一时间戳信息,所述标记模块标记该业务进程为异常业务进程;
统计模块503,用于统计该异常业务进程在第二预设时长内发生异常的频数值,其中,所述第二预设时长大于所述第一预设时长;
判断模块504,用于判断当所述频数大于或等于预设异常阈值时,标注该异常的业务进程为故障业务进程;
处理模块505,用于通知系统不再重启该业务进程,并产生报警信息。
上述监控系统所包含的各模块所具有的功能与作用已在上述实施例中描述,其具有的有益技术效果也与上述实施例相同,此处不作赘述
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种数据库系统的进程监控方法,应用于轨道交通综合监控系统,其特征在于,包括:
获取业务进程的第一时间戳信息;
若在第一预设时长内未接收到所述第一时间戳信息,标记该业务进程为异常业务进程;
统计该异常业务进程在第二预设时长内的频数值,所述第二预设时长大于所述第一预设时长,且所述第二预设时长为所述第一预设时长的整数倍;
若所述频数值大于或等于预设异常阈值,在进程信息表中标注该异常的业务进程为故障业务进程;
系统不再重启该故障业务进程,并产生报警信息;
其中,所述若在第一预设时长内未接收到所述第一时间戳信息,标记该业务进程为异常业务进程,具体包括:
在所述进程信息表中查询未更新第一时间戳信息的业务进程的注册状态,
若所述注册状态为已注册,标记该业务进程为异常业务进程,在实际进程列表中检查该业务进程的ID是否存在,若该业务进程的ID存在实际进程队列中,则认为该业务进程发生了死锁,则继续等待该业务进程自断言退出;若该业务进程的ID不存在实际进程队列中,则系统将该业务进程重启;
若该业务进程的注册状态为未注册,则不对该业务进程进行处理。
2.如权利要求1所述的方法,其特征在于,所述进程信息表包括所述业务进程所属的子系统号、节点号以及所述业务进程的ID号、注册状态、故障状态、时间戳信息,所述进程信息表由系统配置表在进程信息访问库中自动生成,所述系统配置表包括对节点定义表、实时数据库部署表以及系统进程表的参数设置。
3.如权利要求1所述的方法,其特征在于,所述数据库系统的进程包括业务进程、看门狗监控进程以及管理进程,所述管理进程用于获取所述第一时间戳信息。
4.如权利要求3所述的方法,其特征在于,所述管理进程向所述看门狗监控进程发送第二时间戳信息,所述看门狗监控进程、所述业务进程向所述管理进程发送第一时间戳信息,所述看门狗监控进程、所述业务进程以及所述管理进程之间通过共享所述进程信息访问库的方式实现进程间通信。
5.如权利要求1所述的方法,其特征在于,所述统计该异常业务进程在第二预设时长内的频数值,具体包括:
建立异常业务进程表,用以记录该异常业务进程的ID以及该异常业务进程的故障信息;
计算该异常业务进程在第二预设时长内出现在所述异常业务进程表内的频数值;
在超过第二预设时长范围时,清除所述异常业务进程表内的记录的异常业务进程ID以及故障信息。
6.如权利要求5所述的方法,其特征在于,所述故障信息至少包括所述异常业务进程的故障发生时间,所述故障发生时间为所述第一预设时长内未获取到所述第一时间戳信息的时刻。
7.如权利要求5所述的方法,其特征在于,所述记录异常业务进程具体包括:
在所述异常业务进程表中查找该异常业务进程的ID是否存在,若该异常业务进程的ID已存在,在该ID后增加该异常业务进程的故障信息;
若该异常业务进程的ID不存在,记录该异常业务进程的ID以及所述故障信息。
8.一种轨道交通综合监控系统,其特征在于,包括:
获取模块,所述获取模块用于获取业务进程的第一时间戳信息;
标记模块,若所述获取模块在第一预设时长内未接收到所述第一时间戳信息,所述标记模块标记该业务进程为异常业务进程;
统计模块,用于统计该异常业务进程在第二预设时长内发生异常的频数值,其中,所述第二预设时长大于所述第一预设时长,且所述第二预设时长为所述第一预设时长的整数倍;
判断模块,用于判断当所述频数大于或等于预设异常阈值时,在进程信息表中标注该异常的业务进程为故障业务进程;
处理模块,用于通知系统不再重启该业务进程,并产生报警信息;
其中,所述标记模块具体包括:
在所述进程信息表中查询未更新第一时间戳信息的业务进程的注册状态,
若所述注册状态为已注册,标记该业务进程为异常业务进程,在实际进程列表中检查该业务进程的ID是否存在,若该业务进程的ID存在实际进程队列中,则认为该业务进程发生了死锁,则继续等待该业务进程自断言退出;若该业务进程的ID不存在实际进程队列中,则系统将该业务进程重启;
若该业务进程的注册状态为未注册,则不对该业务进程进行处理。
CN201810231265.0A 2018-03-20 2018-03-20 一种数据库系统的进程监控方法及轨道交通综合监控系统 Active CN108710544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810231265.0A CN108710544B (zh) 2018-03-20 2018-03-20 一种数据库系统的进程监控方法及轨道交通综合监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810231265.0A CN108710544B (zh) 2018-03-20 2018-03-20 一种数据库系统的进程监控方法及轨道交通综合监控系统

Publications (2)

Publication Number Publication Date
CN108710544A CN108710544A (zh) 2018-10-26
CN108710544B true CN108710544B (zh) 2022-02-08

Family

ID=63866228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810231265.0A Active CN108710544B (zh) 2018-03-20 2018-03-20 一种数据库系统的进程监控方法及轨道交通综合监控系统

Country Status (1)

Country Link
CN (1) CN108710544B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753417A (zh) * 2018-12-17 2019-05-14 新视家科技(北京)有限公司 异常进程管理方法及其装置、电子设备、计算机可读介质
CN111435937A (zh) * 2019-01-11 2020-07-21 青岛海信网络科技股份有限公司 一种监控平台的刷新方法及装置
CN110147405A (zh) * 2019-04-15 2019-08-20 平安普惠企业管理有限公司 一种基于基架运维的监控方法、装置、设备和存储介质
CN110311813A (zh) * 2019-06-25 2019-10-08 贵阳海信网络科技有限公司 一种轨道综合网管的方法及装置
CN112181669A (zh) * 2019-07-04 2021-01-05 中兴通讯股份有限公司 死锁检测控制方法、装置、通信设备及计算机存储介质
CN111143127B (zh) * 2019-12-23 2023-09-26 杭州迪普科技股份有限公司 监管网络设备的方法、装置、存储介质及设备
CN111209160B (zh) * 2019-12-31 2024-03-22 深圳云天励飞技术有限公司 功耗异常分析方法、装置、终端设备及可读存储介质
CN112054486B (zh) * 2020-09-10 2022-08-05 国家电网有限公司 一种阀基控制保护方法
CN112764956B (zh) * 2021-01-14 2024-01-12 网宿科技股份有限公司 数据库的异常处理系统、数据库的异常处理方法及装置
CN114328083B (zh) * 2021-11-30 2023-11-14 苏州浪潮智能科技有限公司 一种wdt监控方法、装置及介质
CN115437881B (zh) * 2022-08-25 2023-03-28 北京万里开源软件有限公司 一种基于用户态文件系统的数据库进程异常处理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4681900B2 (ja) * 2005-02-04 2011-05-11 富士通株式会社 コンピュータの停止状況監視方法、情報処理装置及びプログラム
CN100555228C (zh) * 2006-11-08 2009-10-28 中兴通讯股份有限公司 一种嵌入式linux应用进程的监控方法
CN102843607A (zh) * 2012-07-24 2012-12-26 四川长虹电器股份有限公司 机顶盒中进程状态监控方法
CN104331357B (zh) * 2014-10-10 2018-07-10 北京金山安全软件有限公司 应用程序异常的检测方法、装置和移动终端
CN106874136A (zh) * 2017-02-22 2017-06-20 郑州云海信息技术有限公司 一种存储系统的故障处理方法及装置

Also Published As

Publication number Publication date
CN108710544A (zh) 2018-10-26

Similar Documents

Publication Publication Date Title
CN108710544B (zh) 一种数据库系统的进程监控方法及轨道交通综合监控系统
CN109039740B (zh) 一种处理运维监控告警的方法及设备
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN111901422B (zh) 一种集群中节点的管理方法、系统及装置
CN111897671A (zh) 故障恢复方法、计算机设备及存储介质
CN103607297A (zh) 一种计算机集群系统的故障处理方法
CN111552556B (zh) 一种gpu集群服务管理系统及方法
CN113434327B (zh) 一种故障处理系统、方法、设备和存储介质
CN112787855B (zh) 一种面向广域分布式服务的主备管理系统及管理方法
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
CN107660289A (zh) 自动网络控制
CN111274052A (zh) 数据分发方法、服务器及计算机可读存储介质
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN111224818A (zh) 一种路侧单元告警方法、装置、电子设备和存储介质
CN110795264A (zh) 监控管理方法及系统、智能管理终端
CN107729213B (zh) 一种后台任务监控方法及装置
CN112286669A (zh) 任务处理方法及装置
CN110798339A (zh) 一种基于分布式任务调度框架的任务容灾方法
CN114172921A (zh) 一种调度录音系统的日志审计方法及装置
CN114531373A (zh) 节点状态检测方法、节点状态检测装置、设备及介质
CN110275795A (zh) 一种基于告警的运维方法及装置
CN115102838B (zh) 服务器宕机风险的应急处理方法和装置、电子设备
CN115495309A (zh) 共用存储服务器的数据库服务器io处理方法及装置
CN114036032A (zh) 一种实时程序的监控方法及装置
CN112000442A (zh) 一种基于kubernetes平台的集群状态自动获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant