CN111106955B - 一种智能站通信网关机及通信方法 - Google Patents

一种智能站通信网关机及通信方法 Download PDF

Info

Publication number
CN111106955B
CN111106955B CN201911302725.5A CN201911302725A CN111106955B CN 111106955 B CN111106955 B CN 111106955B CN 201911302725 A CN201911302725 A CN 201911302725A CN 111106955 B CN111106955 B CN 111106955B
Authority
CN
China
Prior art keywords
event
fault
module
communication gateway
program process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911302725.5A
Other languages
English (en)
Other versions
CN111106955A (zh
Inventor
张修华
陈杰
李�浩
王吉文
吴丽丽
崔丽蓉
巩方波
焦之明
纪洪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intelligent Electrical Branch of Shandong Luneng Software Technology Co Ltd
Original Assignee
Shandong Luruan Digital Technology Co ltd Smart Energy Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Luruan Digital Technology Co ltd Smart Energy Branch filed Critical Shandong Luruan Digital Technology Co ltd Smart Energy Branch
Priority to CN201911302725.5A priority Critical patent/CN111106955B/zh
Publication of CN111106955A publication Critical patent/CN111106955A/zh
Application granted granted Critical
Publication of CN111106955B publication Critical patent/CN111106955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/66Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种智能站通信网关机及通信方法,包括通信网关机,以及与其连接或内置于通信网关机的多线程管理模块、事件分析模块和诊断维护模块,诊断维护模块,被配置为提供可视化界面,观察通信网关机是否正常运行,如果显示运行不正常,则对通信网关机进行故障诊断;多线程管理模块,被配置为监控通信网关机的各线程的工作状态,监视并定位故障线程;事件分析模块,被配置为获取故障诊断、故障线程以及与通信网关机连接的接入设备的事件信息,解析并提取事件关键信息,根据预先设定的优先级,依次传输/处理相应的事件信息。本公开能够提高故障分析结果的准确性,同时能够保证智能站通信网关机准确定位处理程序中多线程出现的问题。

Description

一种智能站通信网关机及通信方法
技术领域
本公开属于通信网关机技术领域,涉及一种智能站通信网关机及通信方法。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
目前应用于变电站的通信网关机运行情况基本采用记录日志的形式,现场运维人员如果需要了解通信网关机运行状态,则需要先从通信网关机中下载日志文件,分析各种类型的日志文件,得出数据网关机运行状态是否正常,如果运行不正常分析故障,并提出故障解决方案,保证通信网关机长期稳定的正常运行。
发明人发现,现有的通信网关机在运行时,存在一些问题:
(1)由于运维人员需要从通信网关机手动下载日志,并且需要分析各种类型的日志文件,最终得出分析结果,如果运行有故障,则提出解决方案,并解决通信网关机的故障,这个过程比较复杂,耗时耗力;
(2)运维人员最终得到的诊断运行状态的结论也不一定准确,提出的解决方案也不一定可行;对于一些经常出现的故障,还需要做重复工作进行解决,工作效率低。
(3)网关机运行时一般采用多线程技术,多线程中之中肯定有一个主线程来统筹控制或调度其他的控制线程、工作线程,而当主线程假死或者卡死状态,整个进程就会无法控制,更无法判断其他线程的运行状况;另外,其他线程的依赖性太强,一旦依赖的主线程对象产生问题,这些多线程就会处于野生状态,失去了约束和控制。
发明内容
本公开为了解决上述问题,提出了一种智能站通信网关机及通信方法,本公开节省了现场运维人员大量时间,无需分析复杂的日志,通过可视化工具查看故障内容,提高故障分析结果的准确性,同时能够保证智能站通信网关机准确定位处理程序中多线程出现的问题。
根据一些实施例,本公开采用如下技术方案:
一种智能站通信网关机,包括通信网关机,以及与其连接或内置于通信网关机的多线程管理模块、事件分析模块和诊断维护模块,其中:
所述诊断维护模块,被配置为提供可视化界面,观察通信网关机是否正常运行,如果显示运行不正常,则对通信网关机进行故障诊断;
所述多线程管理模块,被配置为监控通信网关机的各线程的工作状态,监视并定位故障线程;
所述事件分析模块,被配置为获取故障诊断、故障线程以及与通信网关机连接的接入设备的事件信息,解析并提取事件关键信息,根据预先设定的优先级,依次传输/处理相应的事件信息。
作为可能的一些实现方式,所述通信网关机内置有故障检测模块,至少用于检测系统磁盘占比过高故障、网口故障和串口故障;
所述故障检测模块分析出具体故障后,将故障信息写入故障信息文件,并在诊断维护模块上进行可视化的显示。
作为进一步的限定,所述通信网关机内置有故障处理模块,用于查看故障信息文件,并至少处理系统磁盘占比过高故障、网口故障和串口故障;
当故障处理模块无法进行故障处理时,则提出故障处理合理化建议,并在诊断维护模块上进行可视化的显示。
作为进一步的限定,如果显示通信网关机正常运行,所述诊断维护模块至少用于进行四遥监视、报文监视、下发遥控和遥调。
作为可能的一些实现方式,所述多线程管理模块,具体包括:主程序进程、数据线程及监视程序进程;
所述主程序进程与数据线程通信,数据线程利用各种采集规约对测控装置,保护装置和录波器装置进行数据采集;
将监视程序进程与主程序进程之间通过本地管道进行通讯;
利用独立的监视程序进程来管理通信网关机上主程序进程中多线程处理管理和控制操作,具体为:监视和定位主程序进程的多线程管理工作。
作为进一步的限定,所述监视程序进程由通信网关机本身的看门狗负责监视启动管理。
作为进一步的限定,每个线程均有一个管道通讯接口,通过管道通讯接口与监视程序进程进行通讯,监视程序进程负责监视管理主程序进程的每一个线程。
作为进一步的限定,监视程序进程作为管道通讯的服务端,主程序进程的每个线程作为管道通讯的客户端。
作为进一步的限定,所述事件分析模块,具体包括事件采集模块、事件服务模块和事件数据库,其中:
所述事件采集模块,包括多个,被配置为远程获取网络装置、工作站、隔离装置的事件信息;
所述事件服务模块,被配置为通过消息总线获取所述事件采集模块上传的事件信息,并根据各事件采集模块的数量和流量实现对各事件采集模块请求的限流或熔断的自动控制,同时获取事件信息,解析并提取事件关键信息,根据预先设定的优先级,依次传输相应的事件信息;
所述事件数据库,被配置为存储并分类所述事件服务模块汇总的事件信息,并提供存取接口,以接收所述事件服务模块的请求,提供需要读取的事件信息。
作为可选择的实施方式,所述事件采集模块包括SNMP微服务模块、SYSLOG微服务模块和微服务模块,所述SNMP微服务模块被配置为对网络接入设备进行网络接入、流量超限事件的事件记录,所述SYSLOG微服务模块对站内工作站的登录、操作等事件进行事件记录;具有自定义事件记录接口的微服务模块对本机的操作、维护、运行事件进行事件记录。
作为可选择的实施方式,所述事件采集模块具有标准SNMP协议接口、标准SYSLOG协议接口或/和自定义的直接日志调用接口。
作为可选择的实施方式,所述事件采集模块采用REACTOR模式,事件发生时能够快速响应,事件先记入缓存,经过分析处理后按时间顺序记入同时,缓存的高等级事件通过带缓存的消息总线发往事件服务模块。
作为可选择的实施方式,所述事件服务模块包括至少两台,一台作为主服务模块,另一台作为备用服务模块,且主服务模块和备用服务模块之间热切换。
作为可选择的实施方式,所述主服务模块和备用服务模块,根据事件数量、时间间隔和主备机状态进行定时或实时同步,保证事件记录的完整性。
作为可选择的实施方式,所述事件服务模块采用本地RPC技术,采用负载均衡的方式,根据事件采集模块的链路数量和流量实现对事件采集模块请求的限流或熔断自动控制,从而实现各事件采集模块的高并发处理、及高效的汇总功能。
作为可选择的实施方式,所述事件服务模块具备主流SQL数据库存取接口,根据实际需求,将事件记录备份到数据库中,进行更加通用化的持久化记录。
作为可选择的实施方式,所述事件数据库包括本地KV库和事件SQL数据库,本地KV库用于存储汇总后的事件分类数据,事件SQL数据库用于存储备份数据。
一种智能站通信网关机的通信方法,包括以下步骤:
对通信网关机的运行进行远程可视化实时查看,当正常运行时,进行通信网关机四遥监视、报文监视、下发遥控和遥调;
当运行不正常时,通过通信网关机内预置的故障检测脚本,进行故障诊断,将故障具体信息写入故障信息文件,并进行可视化显示;
对通信网关机的各线程的工作状态进行实时监控,定位故障线程;
获取故障线程、故障诊断或接入设备的事件信息,解析并提取事件关键信息,根据预先设定的优先级,依次传输/处理事件信息。
作为可能的一些实现方式,通信网关机通过预置的故障解决脚本,分析故障信息文件里的具体信息,如果此故障能够在故障解决脚本中进行解决,直接进行解决,并更新故障信息文件,并在可视化界面上显示为此故障已解决。
作为进一步的限定,如果故障解决脚本无法解决此故障,则提出合理化建议,运维人员依据故障解决脚本提出的故障建议,设计解决方案,进而远程解决故障;当远程无法实现故障及时解决时,将故障类型、故障位置和故障解决方案发送给现场工作人员进行现场解决。
作为可能的一些实现方式,当主程序进程的每个线程启动后,首先向监视程序进程发送一次握手消息,监视程序进程收到握手消息后,会立即向此线程发送一次心跳信息,此后会定时的向此线程发送一次心跳信息,线程收到心跳信息后,发送心跳响应,监视程序进程以此来监视主程序进程的每个线程是否正常存活状态。
作为进一步的限定,主程序进程中每个线程中可能出错的地方,都会记录相应的运行信息,以日志类型通过管道通讯接口传输给监视程序进程,监视程序进程通过调用日志库接口来记录相关的运行日志;
当某个线程出现问题时,通过查找监视程序进程记录日志,准确的定位到出现异常问题的线程。
作为进一步的限定,通过通信网关机的看门狗程序进程监视,当启动时,进行定时喂狗操作,当监视程序进程自身发生问题时,就会停止进行喂狗。
作为进一步的限定,获取接入设备以及故障事件信息;
选择主服务模块或备用服务模块,对获取的事件信息进行监听,如果监听失败,则替换另一事件服务模块;
获取上传的事件信息,对事件进行解析和筛选,如果符合预先设定的优先级,依次上传相应的事件信息,等待后续处理。
与现有技术相比,本公开的有益效果为:
本公开通过可视化的维护模块,连接通信网关机,利用预置的故障诊断模块可直接进行故障诊断,并输出结果到可视化界面,不需人工下载日志进行分析,就可以得到具体故障。
本公开通过通信网关机预置的故障解决模块对故障进行诊断并进行解决,对于故障解决脚本可以直接解决的故障,直接解决,不需要人工再去操作,极大的节省了工作量,提高了工作效率。
本公开所述的通信网关机预置的故障解决模块对于一些脚本无法解决的故障提出合理化建议,运维人员依据建议设计解决方案,最终解决故障,保证通信网关机稳定长期正常运行。
本公开采用一个独立的监视程序进程来管理通信网关机上主程序进程中多线程处理管理和控制操作,独立的监视进程功能单一且只拥有一个主线程,只用来监视,操作,控制和定位主程序进程的多线程管理工作。监视进程与主进程之间通过本地管道进行通讯,保证了实时快速性。监视进程功能单一且只有一个主线程操作,出现问题的概率比较小。
主程序进程中每个线程中可能出错的地方,都会记录相应的运行信息,以日志类型通过管道通讯接口传输给监视程序进程,监视程序进程通过调用日志库接口来记录相关的运行日志。
当某个线程出现问题时,通过查找监视程序进程记录日志,就可以准确的定位到出现异常问题的线程。从而解决BUG。
本公开提出了一种终端自适应事件监控分析技术,研制了事件监控定位分析系统,实现事件的分布式采集、边缘计算分析和集中报表汇总,提高了事件处理系统部署的灵活性、事件定位的效率准确性和系统整体的鲁棒性。
本公开提出了一种分布式高并发数据引流技术,通过对事件信息进行解析、筛选和定级,将优先级高的事件信息优先传送、显示,以提醒相关人员进行处理,保证事件的及时解决,提高变电站事件、事故的准确定位能力和处理响应能力;实现事件的分级高速记录和序列化处理,提高了大数据并发情况下前端的事件记录效率和事件记录的完整性。
本公开提出了事件在线可配免重启部署技术,实现系统功能与实际环境要求的一致性部署,提高了事件记录模式灵活性、适应性和事件的时间完整性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是实施例1的结构示意图;
图2是实施例2的通信网关机运行状态诊断模块结构示意图;
图3是通信网关机运行状态诊断过程示意图;
图4是通信网关机各线程关系示意图;
图5是通信网关机事件分析模块的结构示意图;
图6是通信网关机事件分析处理流程示意图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,一种智能站通信网关机,包括通信网关机,以及与其连接或内置于通信网关机(图1仅为实施例1的内置于通信网关机的示例图)的多线程管理模块、事件分析模块和诊断维护模块,其中:
所述诊断维护模块,被配置为提供可视化界面,观察通信网关机是否正常运行,如果显示运行不正常,则对通信网关机进行故障诊断;
所述多线程管理模块,被配置为监控通信网关机的各线程的工作状态,监视并定位故障线程;
所述事件分析模块,被配置为获取故障诊断、故障线程以及与通信网关机连接的接入设备的事件信息,解析并提取事件关键信息,根据预先设定的优先级,依次传输/处理相应的事件信息。
具体的,如图2所示,作为一种实施方式,诊断维护模块与通信网关机通信连接,通过诊断维护模块的可视化界面,观察通信网关机是否正常运行,如果显示运行不正常,则对通信网关机进行故障诊断。
所述通信网关机内置有故障检测模块,至少用于检测系统磁盘占比过高故障、网口故障和串口故障。
所述故障检测模块分析出具体故障后,将故障信息写入故障信息文件,并在诊断维护模块上进行可视化的显示。
所述通信网关机内置有故障处理模块,用于查看故障信息文件,并至少处理系统磁盘占比过高故障、网口故障和串口故障。
当故障处理模块无法进行故障处理时,则提出故障处理合理化建议,并在诊断维护模块上进行可视化的显示。
如果显示通信网关机正常运行,所述诊断维护模块至少用于进行四遥监视、报文监视、下发遥控和遥调。
如图3所示,应用于通信网关机运行状态诊断的方法,步骤如下:
对通信网关机的运行进行远程可视化实时查看,当正常运行时,进行通信网关机四遥监视、报文监视、下发遥控和遥调;
当运行不正常时,通过通信网关机内预置的故障检测脚本,进行故障诊断,将故障具体信息写入故障信息文件,并进行可视化显示。
通信网关机通过预置的故障解决脚本,分析故障信息文件里的具体信息,如果此故障能够在故障解决脚本中进行解决,直接进行解决,并更新故障信息文件,并在可视化界面上显示为此故障已解决。
如果故障解决脚本无法解决此故障,则提出合理化建议,运维人员依据故障解决脚本提出的故障建议,设计解决方案,进而远程解决故障。
当远程无法实现故障及时解决时,将故障类型、故障位置和故障解决方案发送给现场工作人员进行现场解决。
如图4所示,通信网关机最重要的就是主程序进程,通过采集数据线程,利用各种采集规约对下面的测控装置,保护装置和录波器装置等进行数据采集,采集的数据可以是遥测,遥信,遥脉,定值和录波文件等数据信息。
具体的数据线程的处理为:
采集上来的数据交给实时数据存储线程处理,将数据以键值队格式存储到实时数据库中。
转发数据线程,主要根据配置的转发表数据从实时库中读取相应的数据,然后转换成相应的规约帧格式数据,转发给调度主站。
对于一些特殊的合成的需要参数计算的数据,计算量数据处理线程主要负责从实时库中取出相应的数据,进行相应的计算,如果调度需要,则将数据传递给转发数据线程,最后传递给调度。
同时后台数据处理线程也可以从实时数据库中读取所需数据,将数据传递给后台进行处理.
同理调度也可以下发遥控等命令操作,将命令传递给采集数据线程,进而下发到具体的某个装置。
通信网关机通过主程序进程的各个线程完成各自功能来实现,由于每一个线程完成的功能比较独立且相对复杂,线程个数又比较多,所以必须对每一个线程进行监控记录,否则一旦出现问题,很难进行定位查找问题。
每个线程都有一个管道通讯接口,通过管道与监视程序进程进行通讯。监视程序进程负责监视管理主程序进程的每一个线程。
通讯的方式如要如下:
监视程序进程作为管道通讯的服务端,主程序进程的每个线程作为管道通讯的客户端。
当主程序进程的每个线程启动后,首先向监视程序进程发送一次握手消息,监视程序进程收到握手消息后,会立即向此线程发送一次心跳信息,此后会定时的(每隔10秒)向此线程发送一次心跳信息,线程收到心跳信息后,发送心跳响应。监视程序进程以此来监视主程序进程的每个线程是否正常存活状态。
具体实施时,主程序进程的每个线程与监视程序进程之间交互的每个消息中,都有一个标识自己线程的唯一id标识,就是通过这个id,监视程序来区分不同的线程发过来的消息。比如主程序进程叫做A,他下面的各个线程叫A1,A2,A3。监视程序进程叫B。双方是否都能收到,是根据B来判断的,双方约定一个超时时间T0,启动时,A和B同时启动的,A1A2A3分别会向B发送一条握手消息,如果B超过T0时间没有收到A1的握手消息,就认为A1线程出问题了,同理其他线程一样处理;运行时,B会定时向A1,A2,A3发送心跳消息,然后A1A2A3向B发送心跳响应消息,当B发送完在T0时间内收不到相应进程的响应时就认为出问题了。不回应时,就认为出问题了,出问题了以后,就不正常了,停止运行,需要查找日志,解决BUG。
主程序进程中每个线程中可能出错的地方,都会记录相应的运行信息,以日志类型通过管道通讯接口传输给监视程序进程,监视程序进程通过调用日志库接口来记录相关的运行日志。
具体实施例子中,可能出错的地方就是程序代码实现方式或者实现逻辑可能出错的地方,比如申请内存失败,下标越限,数组数据量超过特定限值,处理耗时的操作等等。
当监视程序进程收不到某个线程的心跳响应消息,则判断该线程出现问题,通过查找监视程序进程记录日志,就可以准确的定位到出现异常问题的线程,从而解决BUG。
监视程序进程,主要通过通信网关机系统的看门狗程序进程监视,当启动时,进行定时喂狗操作,当监视程序进程自身发生问题时,就会停止进行喂狗。因为此程序完成的功能单一简单,且有且只有一个主线程,故不需要复杂的线程管理,就可以轻易的定位到问题。
如图5所示,事件分析模块,包括采集前端和服务模块端。
采集前端包括多个事件采集模块,被配置为远程获取网络装置、工作站、隔离装置的事件信息;
服务模块端包括事件服务模块和事件数据库,其中:
事件服务模块,被配置为通过消息总线获取所述事件采集模块上传的事件信息,并根据各事件采集模块的数量和流量实现对各事件采集模块请求的限流或熔断的自动控制,同时获取事件信息,解析并提取事件关键信息,根据预先设定的优先级,依次传输相应的事件信息;
事件数据库,被配置为存储并分类所述事件服务模块汇总的事件信息,并提供存取接口,以接收所述事件服务模块的请求,提供需要读取的事件信息。
具体的,事件采集模块具备功能服务接口:标准SNMP协议接口、标准SYSLOG协议接口以及自定义的直接日志调用接口。分别能够对网络装置、工作站、隔离装置等具备上述标准规范的站内设备进行远程事件采集,从而可对站内的安全事件进行日记记录;提供的日志记录接口可对本机上的人机操作、维护、运行等事件进行事件记录,提供可开关的调试接口,供初期运维人员调试使用;因为采用微服务模块化设计,接口和功能模块易于扩展,可根据需要对其他类型的装置进行事件记录。
这些接口通过微服务模块的形式提供,可部署在采集装置端或单独设置微服务模块,形成事件采集前端,可有针对性的进行相关日志的采集;如SNMP微服务模块针对路由器、网关机等设备进行网络接入、流量超限等事件的事件记录,SYSLOG微服务模块对站内工作站的登录、操作等事件进行事件记录;具有自定义事件记录接口的微服务模块对本机的操作、维护、运行等事件进行事件记录;
通过上述部署方式,实现了微服务的分布式部署和各种类型事件的采集,一定程度上实现了事件处理的分流,避免大量突发数据时的处理和记录压力;采集前端采用REACTOR模式,事件发生时能够快速响应,事件先记入缓存,经过分析处理后按时间顺序记入KV数据库(这样的数据库体积小,对采集前端的软硬件要求低,且读写速率很高),同时,缓存的高等级事件通过带缓存的消息总线发往事件服务模块。缓存+KV库的方式保证事件记录的快速高效,带缓存的消息总线传输技术保证事件传输的完整性;
采集策略、优先级、传输方向、事件类型等配置项事先配置,通过配置项对事件信息进行上送过滤,可保证事件的优先级上送和传输带宽。
事件采集前端记录的事件,通过消息总线汇集到事件服务模块,形成站内所有相关事件的汇总。事件服务模块采用本地RPC技术,如事件接收采用线程池+负载均衡的方式,功能模块的管理采用服务发现技术及RPC服务治理技术,根据采集前端的链路数量和流量实现对采集前端请求的限流、熔断等自动控制,从而实现各采集模块事件的高并发处理、及高效的汇总功能;汇总后的事件分类记录到主机的本地KV库中,为后续的站内事件分析提供全局数据基础。
对于事件采集前端,先进行各事件采集模块的加载配置,实现初始化,然后进行主备选择,如果选择事件服务模块(主机)则将其注册到消息总线,实现监听,如果监听成功,则等待事件的发生,采集事件。如果监听不成功,则进行主备切换,继续等待事件的发生,采集事件。
同时事件服务模块具备主流SQL数据库存取接口,可根据实际需求,将事件记录备份到数据库中,进行更加通用化的持久化记录。
两个事件服务模块具备热备功能,可根据事件数量、时间间隔、主备机状态进行定时或实时同步,保证事件记录的完整性。
如图6所示,对事件服务模块进行加载配置,实现初始化,确认是否使用主机,如果是,则将主机注册到消息总线,如果成功则继续后续处理,如果不成功则进行主备切换,切换至备用机上,进行后续处理。后续处理包括负载均衡,以及发现功能模块进行相应的加载和启动,等待事件发生,如果有事件发生,则确认是否是高并发,如果是,则进行动态扩容,如果不是,则进行事件的筛选、分类和定级处理,传输相应符合预设条件的信息进入数据库中备份。
如果有不符合预先设定条件的时间信息,则创建进行实例信息,加入服务管理,进行负载均衡和事件处理,按照时间顺序,合并数据库中的信息。
综上,本系统采用微服务架构,支持分布式部署,易于扩展和移植;分布式部署时可配置热备功能。
采用高速缓存+二级缓存技术+本地数据库的记录方式,采用高速查找引擎技术+缓冲式消息总线技术,事件记录、查找和处理性能高,能够满足高速、高并发等情况下事件记录的快速实时性和完整性需求,支持事件记录永久存储,可根据配置时间间隔自动覆盖,保证存储容量不越限。
同时,事件记录参数可配置,具体表现为:
可配置监控装置及装置类型,记录该装置某种类型的事件;
上送平台及上送策略可配置,能够记录事件的源地址和目的地址,来源去向都可记录,保证事件流向的记录完整性;
事件记录等级、事件等级、记录时间间隔、记录容量、记录文件格式等都可以根据实际需求灵活配置,具有审计、操作、事件等类型日志。
系统预留日志事件上送接口,支持标准化的日志上送协议(syslog等),上送协议可配置,支持日志导入导出,可导出为普通文本文件何csv文件及报表,支持日志导出文件的远程上传。
具备基本的权限鉴别功能,可配置远程用户是否具备浏览、下载、修改、删除的用户权限,事件汇集后分析处理,可进行按照设备类型、日志类型、事件类型、事件等级等分类分析、处理,生成事件报表,便于快速定位某一事件。
对记录效率要求高的大型应用场合,可将各个服务模块分别部署到不同的主机上,定制配置文件,实现该主机的功能定制,分别记录不同等级、不同类型的事件。完全部署到单台主机上则免去远程数据传输,具有更高的记录和分析效率。
各个服务模块通过消息总线支持分布式集群和热备功能,保证每台主机保存有完整的事件记录。
通过配置后台主机地址、用户权限等,可将本地事件记录按过滤条件招到后台主机上,实现远程事件浏览,也可将事件记录文件上传到后台主机。
以通信网关机的磁盘故障事件为例,具体的通信方法为:
(1)通信网关机预设有磁盘阈值,当磁盘使用大小达到阈值,确认为磁盘发生故障。
(2)当磁盘大小发生故障时,发送磁盘告警信号;
(3)检索此故障信号,进行分析,并记录故障事件日志文件。
(4)事件采集模块获取该故障事件日志文件,解析并提取事件关键信息,得出故障具体信息,根据预先设定的优先级,传输相应的事件信息;
(5)维护模块连接通信网关机,可视化具体故障,判断是否需要调用故障处理脚本解决此故障。
(6)若确认要处理此故障,发送故障处理信号,故障处理脚本接收到故障处理信号,进行处理此故障;故障处理脚本预置了一些常见的故障处理方法。例如磁盘占比过大、串口异常、网口异常等。
(7)若此故障在故障处理脚本可进行处理,则调用其中的方法进行处理,例如此案例磁盘超过阈值,由于日志在通信网关机中占比最大,所以会删除通信网关机中存储的历史日志,释放磁盘空间。
(8)若此故障在故障处理脚本无法进行处理,则提出处理建议。
(9)运维人员依据提出的故障处理建议,设计故障处理方案,进而解决故障,保证通信网关机稳定正常工作;
(10)服务模块对操作、维护、运行等事件进行事件记录,形成完整的事件报告。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (15)

1.一种智能站通信网关机,其特征是:包括通信网关机,以及与其连接或内置于通信网关机的多线程管理模块、事件分析模块和诊断维护模块,其中:
所述诊断维护模块,被配置为提供可视化界面,观察通信网关机是否正常运行,如果显示运行不正常,则对通信网关机进行故障诊断;
所述多线程管理模块,被配置为监控通信网关机的各线程的工作状态,监视并定位故障线程;
所述事件分析模块,被配置为获取故障诊断、故障线程以及与通信网关机连接的接入设备的事件信息,解析并提取事件关键信息,根据预先设定的优先级,依次传输/处理相应的事件信息;
所述多线程管理模块,具体包括:主程序进程、数据线程及监视程序进程;
所述主程序进程与数据线程通信,数据线程利用各种采集规约对测控装置、保护装置和录波器装置进行数据采集;
将监视程序进程与主程序进程之间通过本地管道进行通讯;
利用独立的监视程序进程来管理通信网关机上主程序进程中多线程处理管理和控制操作,具体为:监视和定位主程序进程的多线程管理工作;
所述事件分析模块,采用微服务架构形成事件采集前端,通过带缓存的消息总线获取采集的事件信息,支持分布式集群和热备功能,保证每台主机保存有完整的事件记录。
2.如权利要求1所述的一种智能站通信网关机,其特征是:所述通信网关机内置有故障检测模块,至少用于检测系统磁盘占比过高故障、网口故障和串口故障;
所述故障检测模块分析出具体故障后,将故障信息写入故障信息文件,并在诊断维护模块上进行可视化的显示。
3.如权利要求1所述的一种智能站通信网关机,其特征是:所述通信网关机内置有故障处理模块,用于查看故障信息文件,并至少处理系统磁盘占比过高故障、网口故障和串口故障;
当故障处理模块无法进行故障处理时,则提出故障处理合理化建议,并在诊断维护模块上进行可视化的显示。
4.如权利要求1所述的一种智能站通信网关机,其特征是:所述监视程序进程由通信网关机本身的看门狗负责监视启动管理;
或进一步的,每个线程均有一个管道通讯接口,通过管道通讯接口与监视程序进程进行通讯,监视程序进程负责监视管理主程序进程的每一个线程。
5.如权利要求1所述的一种智能站通信网关机,其特征是:所述事件分析模块,具体包括事件采集模块、事件服务模块和事件数据库,其中:
所述事件采集模块,包括多个,被配置为远程获取网络装置、工作站、隔离装置的事件信息;
所述事件服务模块,被配置为通过消息总线获取所述事件采集模块上传的事件信息,并根据各事件采集模块的数量和流量实现对各事件采集模块请求的限流或熔断的自动控制,同时获取事件信息,解析并提取事件关键信息,根据预先设定的优先级,依次传输相应的事件信息;
所述事件数据库,被配置为存储并分类所述事件服务模块汇总的事件信息,并提供存取接口,以接收所述事件服务模块的请求,提供需要读取的事件信息。
6.如权利要求5所述的一种智能站通信网关机,其特征是:所述事件采集模块包括SNMP微服务模块、SYSLOG微服务模块和微服务模块,所述SNMP微服务模块被配置为对网络接入设备进行网络接入、流量超限事件的事件记录,所述SYSLOG微服务模块对站内工作站的登录、操作等事件进行事件记录;具有自定义事件记录接口的微服务模块对本机的操作、维护、运行事件进行事件记录。
7.如权利要求5所述的一种智能站通信网关机,其特征是:所述事件服务模块包括至少两台,一台作为主服务模块,另一台作为备用服务模块,且主服务模块和备用服务模块之间热切换;
所述主服务模块和备用服务模块,根据事件数量、时间间隔和主备机状态进行定时或实时同步,保证事件记录的完整性。
8.如权利要求7所述的一种智能站通信网关机,其特征是:所述事件服务模块采用本地RPC技术,采用负载均衡的方式,根据事件采集模块的链路数量和流量实现对事件采集模块请求的限流或熔断自动控制,从而实现各事件采集模块的高并发处理、及高效的汇总功能。
9.一种智能站通信网关机的通信方法,其特征是:包括以下步骤:
对通信网关机的运行进行远程可视化实时查看,当正常运行时,进行通信网关机四遥监视、报文监视、下发遥控和遥调;
当运行不正常时,通过通信网关机内预置的故障检测脚本,进行故障诊断,将故障具体信息写入故障信息文件,并进行可视化显示;
对通信网关机的各线程的工作状态进行实时监控,定位故障线程;
获取故障线程、故障诊断或接入设备的事件信息,解析并提取事件关键信息,根据预先设定的优先级,依次传输/处理事件信息;
利用独立的监视程序进程来管理通信网关机上主程序进程中多线程处理管理和控制操作,具体为:监视和定位主程序进程的多线程管理工作,监视程序进程与主程序进程之间通过本地管道进行通讯;
采用微服务架构形成事件采集前端,通过带缓存的消息总线获取采集的事件信息,支持分布式集群和热备功能,保证每台主机保存有完整的事件记录。
10.如权利要求9所述的一种智能站通信网关机的通信方法,其特征是:通信网关机通过预置的故障解决脚本,分析故障信息文件里的具体信息,如果此故障能够在故障解决脚本中进行解决,直接进行解决,并更新故障信息文件,并在可视化界面上显示为此故障已解决。
11.如权利要求9所述的一种智能站通信网关机的通信方法,其特征是:如果故障解决脚本无法解决此故障,则提出合理化建议,运维人员依据故障解决脚本提出的故障建议,设计解决方案,进而远程解决故障;当远程无法实现故障及时解决时,将故障类型、故障位置和故障解决方案发送给现场工作人员进行现场解决。
12.如权利要求9所述的一种智能站通信网关机的通信方法,其特征是:当主程序进程的每个线程启动后,首先向监视程序进程发送一次握手消息,监视程序进程收到握手消息后,会立即向此线程发送一次心跳信息,此后会定时的向此线程发送一次心跳信息,线程收到心跳信息后,发送心跳响应,监视程序进程以此来监视主程序进程的每个线程是否正常存活状态。
13.如权利要求9所述的一种智能站通信网关机的通信方法,其特征是:主程序进程中每个线程中可能出错的地方,都会记录相应的运行信息,以日志类型通过管道通讯接口传输给监视程序进程,监视程序进程通过调用日志库接口来记录相关的运行日志;
当某个线程出现问题时,通过查找监视程序进程记录日志,准确的定位到出现异常问题的线程。
14.如权利要求9所述的一种智能站通信网关机的通信方法,其特征是:通过通信网关机的看门狗程序进程监视,当启动时,进行定时喂狗操作,当监视程序进程自身发生问题时,就会停止进行喂狗。
15.如权利要求9所述的一种智能站通信网关机的通信方法,其特征是:获取接入设备以及故障事件信息;
选择主服务模块或备用服务模块,对获取的事件信息进行监听,如果监听失败,则替换另一事件服务模块;
获取上传的事件信息,对事件进行解析和筛选,如果符合预先设定的优先级,依次上传相应的事件信息,等待后续处理。
CN201911302725.5A 2019-12-17 2019-12-17 一种智能站通信网关机及通信方法 Active CN111106955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911302725.5A CN111106955B (zh) 2019-12-17 2019-12-17 一种智能站通信网关机及通信方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911302725.5A CN111106955B (zh) 2019-12-17 2019-12-17 一种智能站通信网关机及通信方法

Publications (2)

Publication Number Publication Date
CN111106955A CN111106955A (zh) 2020-05-05
CN111106955B true CN111106955B (zh) 2022-10-18

Family

ID=70422443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911302725.5A Active CN111106955B (zh) 2019-12-17 2019-12-17 一种智能站通信网关机及通信方法

Country Status (1)

Country Link
CN (1) CN111106955B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111953542B (zh) * 2020-08-12 2023-08-04 深圳市前海澳威智控科技有限责任公司 一种保障网关稳定运行的系统
CN112134727A (zh) * 2020-08-31 2020-12-25 南京卓威研信息技术有限公司 基于容器技术的网关机运行数据交换方法
CN112181762A (zh) * 2020-09-22 2021-01-05 城云科技(中国)有限公司 软件项目应用基础环境部署与三遥的可视化处理方法
CN112291091B (zh) * 2020-10-26 2022-11-29 积成电子股份有限公司 一种变电站数据通信网关机资源共享方法
CN112328392B (zh) * 2020-10-27 2024-05-28 金蝶软件(中国)有限公司 一种数据处理方法及相关设备
CN112469065A (zh) * 2020-12-23 2021-03-09 北京春笛网络信息技术服务有限公司 一种5g短信一体机的保活检测方法
CN113867309A (zh) * 2021-09-06 2021-12-31 北京许继电气有限公司 一种电力系统数据通信故障诊断方法和系统
CN114172800B (zh) * 2021-11-25 2024-05-03 浙江源创智控技术有限公司 Knx多网关通信方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103645947A (zh) * 2013-11-25 2014-03-19 北京航空航天大学 Mil-std-1553b总线监控及数据分析系统
CN107784417A (zh) * 2016-08-31 2018-03-09 中国电力科学研究院 基于调度自动化平台的电网事件触发计算的方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996106B (zh) * 2010-12-17 2012-12-05 南京中兴力维软件有限公司 一种对软件运行状态进行监控的方法
CN103491190B (zh) * 2013-09-30 2016-05-04 国家电网公司 一种面向大规模实时并发的充电机监控数据处理方法
US11071032B2 (en) * 2015-03-02 2021-07-20 Corning Optical Communications LLC Gateway coordinating multiple small cell radio access networks
CN105302120A (zh) * 2015-11-19 2016-02-03 广州云湾信息技术有限公司 智能设备的远程服务装置、系统和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103645947A (zh) * 2013-11-25 2014-03-19 北京航空航天大学 Mil-std-1553b总线监控及数据分析系统
CN107784417A (zh) * 2016-08-31 2018-03-09 中国电力科学研究院 基于调度自动化平台的电网事件触发计算的方法及系统

Also Published As

Publication number Publication date
CN111106955A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111106955B (zh) 一种智能站通信网关机及通信方法
CN110943870B (zh) 一种智能站全景数据监测分析系统及方法
CN110011829B (zh) 综合机载任务系统健康管理子系统
CN111127250B (zh) 一种电力数据监控事件分析系统及方法
CN101916507B (zh) 桥梁健康监测系统
CN107632918B (zh) 计算存储设备的监控系统及方法
US10545807B2 (en) Method and system for acquiring parameter sets at a preset time interval and matching parameters to obtain a fault scenario type
CN109462490B (zh) 视频监控系统及故障分析方法
CN114189430A (zh) 立体化日志全链路监控系统、方法、介质及设备
CN105262210A (zh) 一种变电站网络安全性分析预警系统和方法
EP2902908A1 (en) System operation trace method in distributed system
CN113391978B (zh) 一种主机的巡检方法和装置
CN101826756A (zh) 一种实现配电房设备故障定位系统及方法
CN103295155A (zh) 证券核心业务系统监控方法
CN105302697A (zh) 一种密集数据模型数据库的运行状态监控方法及系统
CN103699063A (zh) 一种制造执行系统mes中离线数据的采集装置和方法
CN1533948A (zh) 对飞机故障的预测报警方法及飞机故障预测报警系统
CN111083230A (zh) 一种计算机网络运行管理系统
CN103049365B (zh) 信息与应用资源运行状态监控及评价方法
CN104125085A (zh) 一种基于esb的数据管控方法及装置
CN108984363A (zh) 一种并行测试的方法及系统
CN109164720A (zh) 基于IIoT的注塑机机群远程监控系统和方法
CN107943657A (zh) 一种Linux系统问题自动分析方法及系统
CN113206867A (zh) 一种智能数据采集监控系统、方法和定时采集服务模块
CN117422434A (zh) 一种智慧运维调度平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201216

Address after: Room 902, 9 / F, block B, Yinhe building, 2008 Xinluo street, hi tech Zone, Jinan City, Shandong Province

Applicant after: Shandong Luneng Software Technology Co.,Ltd. intelligent electrical branch

Address before: 250101 power intelligent robot production project 101 south of Feiyue Avenue and east of No.26 Road (in ICT Industrial Park) in Suncun District of Gaoxin, Jinan City, Shandong Province

Applicant before: National Network Intelligent Technology Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: Room 902, 9 / F, block B, Yinhe building, 2008 Xinluo street, hi tech Zone, Jinan City, Shandong Province

Applicant after: Shandong luruan Digital Technology Co.,Ltd. smart energy branch

Address before: Room 902, 9 / F, block B, Yinhe building, 2008 Xinluo street, hi tech Zone, Jinan City, Shandong Province

Applicant before: Shandong Luneng Software Technology Co.,Ltd. intelligent electrical branch

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant