CN104065503A - 一种智能交通物联网设施故障溯源判别分析方法 - Google Patents
一种智能交通物联网设施故障溯源判别分析方法 Download PDFInfo
- Publication number
- CN104065503A CN104065503A CN201310095214.7A CN201310095214A CN104065503A CN 104065503 A CN104065503 A CN 104065503A CN 201310095214 A CN201310095214 A CN 201310095214A CN 104065503 A CN104065503 A CN 104065503A
- Authority
- CN
- China
- Prior art keywords
- event
- data
- equipment
- fault
- alarm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Alarm Systems (AREA)
Abstract
本发明涉及一种智能交通物联网设施故障溯源判别分析方法,其特征在于,步骤为:步骤1、数据处理、生成事件;步骤2、事件过滤和事件压缩;步骤3、根源事件智能报警分析。本发明突破了现有网管系统局限于IT设备监控、报警的有限功能,实现了智能交通管理中所有设备从投入到终止全生命周期的管理,覆盖了设备的监控管理、运维管理、资源管理的各个环节。
Description
技术领域
本发明涉及一种基于物联网的智能设施发生故障时,智能的判别故障根源的技术,尤其涉及一种利用网络通讯的实时检测数据及智能交通设施支持的信息传输、信息采集、信息控制、信息融合、人机交互特点,判别设施故障根源的方法,属于智能交通技术领域。
背景技术
目前,国内交通行业的设备管理主要还是分部门、分条块各自管理。设备资产、设备状态自动采集和智能报警、实时监控、规范流程处置、运维效果评价缺乏一体化管理,但是,这种一体化、自动化、精细化运维管理是发展的方向。一体化运维可以打破部门分割,使业务部门对设备的要求同运维部门对设备的运维有机结合,使得不断适应业务部门新要求,运维工作与时俱进。自动化运维利用信息技术,自动采集和监控设备运行状况,节省大量人力,减少人为干预和误判,为大范围的、各系统设备的集中运维创造条件,减少信息孤岛,减少运维系统的重复建设,使得运维信息在统一平台上相互传播和共享。精细化运维通过规范运维过程和挖掘运维数据,总结分享了运维经验,分析运维中的问题,考核运维绩效,促进工作改进。
但是,针对于智能交通行业设备管理的需要,目前还缺少将各种系统设备整合、统一的运维系统。
发明内容
本发明的目的是提供一种将各种系统设备整合、统一的设施故障溯源判别分析方法。
为了达到上述目的,本发明的技术方案是提供了一种智能交通物联网设施故障溯源判别分析方法,其特征在于,步骤为:
步骤1、数据处理、生成事件:根据状态数据和报警规则生成的单源的事件信息,报警规则由一系列阀值和触发频率定义,事件至少分为:
原始事件:被管对象代理层主动上传的事件信息;
基础事件:根据状态数据和报警规则,满足条件的单源的事件信息;
根源事件:关联性分析后,最终上报给用户的事件,其主要包括:
建立数据采集栈:数据采集上来后,对每种数据建立内存堆栈,以适应不同采集周期的数据存放,数据堆栈的存储以压栈的方式,最近周期的数据始终处于栈头,方便数据读取和分析;
采取数据存储策略:定期比较数据库,新采集的数据统一批量提交入库,从而减小对数据库的压力,同时减少数据库的连接数,节省连接资源;
数据配置队列:内存中还建有一个数据配置队列,队列中初始化了各种采集数据的采集周期、平滑周期、生成事件规则条件;
事件生成:以多线程的方式,从数据采集栈中,按照数据配置的平滑周期要求提取数据,根据事件规则,判断阀值条件、频率,符合要求的生成基础事件,写入设备事件原始队列并标记事件生成时间,依据数据采集时间标记事件开始时间;
数据恢复策略:当报警分析软件因故障崩溃,后台服务会重启软件,软件首先从数据库中读取事件原始队列中丢失的事件数据,再从各代理采集软件接收最新的采集数据,尽量把数据缺失的影响降到最小;
设备事件原始队列:该队列负责接收实时生成的基础事件和采集上来的原始事件,以及恢复事件,并同时记录和更新写库;
步骤2、事件过滤和事件压缩:
事件过滤:当同一事件的生成,有多个不同来源的数据,而数据内容比较一致时,需要根据数据的周期、延时、可靠性、采集方式等比较数据的质量和稳定性,选择其中一种作为判断事件的数据来源;
事件压缩:在同一设备上,采集数据经过判断后,同一事件连续发生时,只保留最开始的事件,直到该事件恢复为止,再次发生的同一事件才能被判定为新事件,通过对事件的压缩,可以减少很多不必要的报警,提高报警的可用性;
步骤3、根源事件智能报警分析:
依据交换机的网络节点状态和拓扑关系,若节点有通信故障,节点下设备故障将过滤;若节点交换机的端口通信故障,端口对应的设备故障将过滤;若终端设备通信故障,终端设备的其他事件和其上软件报警事件将过滤。
优选地,在步骤1中,事件至少分为四级,分别是:
普通事件:需要养护人员关注,事件作用一般为预防提醒非关键设备某些指标工作异常,但设备还能工作,不影响其他设备;
警告事件:需要设备管理员和养护人员关注,事件作用一般为提醒非关键设备工作异常或不能工作,但不影响其他设备;
严重事件:需要值班人员关注,告知设备管理员,事件作用一般为关键设备工作异常或不能工作,影响分系统内局部设备;
致命事件:需要值班人员关注,及时电话通知设备管理员和养护人员,事件作用一般为关键设备工作异常或不能工作,影响分系统全局设备或全系统正常运行。
优选地,在步骤1中采集的数据有两类分别为:设备工作状态数据和设备采集交通数据;
设备工作状态数据周期一般固定,时间间隔较长,数据存储不大,记录1个小时内,大概20个周期的数据即可,是设备报警分析的主要数据;
设备采集交通数据周期不固定,并且数据频率高,数据量大,需要做一段时间内数据跟踪和分析,是设备报警分析的辅助数据。
优选地,在步骤1中数据配置的平滑周期要根据数据的特性分别设置,对于服务器处理器CPU时间百分比,CPU的使用瞬间变化非常大,因此要获取平稳的使用状态就需要多个周期的数据进行平滑处理;但是对于机房火警等,关注的是突变状态发生,一旦发生需要立刻报警,因此不能设置多个周期。
优选地,在步骤3中,故障根源分析软件的数据处理分四个步骤:
步骤3.1、轮巡相关实时状态表,获得各中设备的状态、性能数据,同时获得设备预设的状态阀值;
步骤3.2、根据阀值生成报警事件,再对事件压缩、过滤;
步骤3.3、对事件进行故障根源分析;
步骤3.4、将事件及设备状态、性能数据存入数据库。
本发明突破了现有网管系统局限于IT设备监控、报警的有限功能,实现了智能交通管理中所有设备从投入到终止全生命周期的管理,覆盖了设备的监控管理、运维管理、资源管理的各个环节。
附图说明
图1为数据处理、事件生成过程示意图;
图2为根源事件的智能报警分析示意图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
本发明提供了一种智能交通物联网设施故障溯源判别分析方法,其步骤为
步骤1、数据处理,生成事件:
事件为根据状态数据和报警规则生成的单源的事件信息,报警规则由一系列阀值和触发频率定义,其分为
原始事件:被管对象代理层主动上传的事件信息。
基础事件:根据状态数据和报警规则,满足条件的单源的事件信息。
根源事件:关联性分析后,最终上报给用户的事件。
事件级别分为四级,分别是:
1)普通事件:需要养护人员关注,事件作用一般为预防提醒非关键设备某些指标工作异常,但设备还能工作,不影响其他设备。
2)警告事件:需要设备管理员和养护人员关注,事件作用一般为提醒非关键设备工作异常或不能工作,但不影响其他设备。
3)严重事件:需要值班人员关注,告知设备管理员。事件作用一般为关键设备工作异常或不能工作,影响分系统内局部设备。
4)致命事件:需要值班人员关注,及时电话通知设备管理员和养护人员。事件作用一般为关键设备工作异常或不能工作,影响分系统全局设备或全系统正常运行。
数据处理、事件生成过程如图1所示,主要包括:
数据采集栈:数据采集上来后,要对每种数据建立内存堆栈,以适应不同采集周期的数据存放,数据堆栈的存储以压栈的方式,最近周期的数据始终处于栈头,方便数据读取和分析。每种数据的内存堆栈根据数据的采集周期、数据类型和数据分析的要求长度稍有不同。采集的数据有两类,设备工作状态数据和设备采集交通数据,前者数据周期一般固定,时间间隔较长,数据存储不大,记录1个小时内,大概20个周期的数据即可,是设备报警分析的主要数据;后者数据采集周期不固定,并且数据频率高,数据量大,需要做一段时间内数据跟踪和分析(例如卡口设备的图片识别率、电子警察的图片状态),是设备报警分析的辅助数据。
数据存储策略:定期比较数据库,新采集的数据统一批量提交入库,从而减小对数据库的压力,同时减少数据库的连接数,节省连接资源。
数据配置队列:内存中还建有一个数据配置队列,队列中初始化了各种采集数据的采集周期、平滑周期、生成事件规则条件。
事件生成:以多线程的方式,从数据采集栈中,按照数据配置的平滑周期要求提取数据,根据事件规则,判断阀值条件、频率,符合要求的生成基础事件,写入设备事件原始队列并标记事件生成时间,依据数据采集时间标记事件开始时间。数据配置的平滑周期要根据数据的特性分别设置,例如服务器处理器CPU的时间百分比,CPU的使用瞬间变化非常大,因此要获取平稳的使用状态就需要多个周期的数据进行平滑处理;但是对于机房火警等,关注的是突变状态发生,一旦发生需要立刻报警,因此不能设置多个周期。
数据恢复策略:当报警分析软件因故障崩溃,后台服务会重启软件,软件首先从数据库中读取事件原始队列中丢失的事件数据,再从各代理采集软件接收最新的采集数据,尽量把数据缺失的影响降到最小。
设备事件原始队列:该队列负责接收时时生成的基础事件和采集上来的原始事件,以及恢复事件,并同时记录和更新写库。
步骤2、事件过滤和事件压缩:
事件过滤:当同一事件的生成,有多个不同来源的数据,而数据内容比较一致时,需要根据数据的周期、延时、可靠性、采集方式等比较数据的质量和稳定性,选择其中一种作为判断事件的数据来源。
在采集终端设备卡口的工作状态中,卡口车牌识别软件的工作状态有两种数据来源;其一,通过卡口设备的通信接口可以获取车牌识别软件的工作状态。其二可以通过中心卡口数据库分析卡口采集数据的连续性,进而判断车牌识别软件的工作状态。两种数据源都可作为事件判断的来源,但比较发现,当中心数据库压力太大,或网络通讯不稳定的情况下,中心在某一时刻的车牌数据有可能不全或丢失,卡口终端一般会缓存数据,实时通过中心数据库分析卡口采集数据的连续性就有可能不准确,所以第一种通过设备接口获取更直接和可靠。
事件压缩:在同一设备上,采集数据经过判断后,同一事件连续发生时,只保留最开始的事件,直到该事件恢复为止,再次发生的同一事件才能被判定为新事件。通过对事件的压缩,可以减少很多不必要的报警,提高报警的可用性。
步骤3、根源事件的智能报警分析
结合图2,交换机网络节点关系:交换机一般按能力会区分主干交换机、分支交换机,按照在网络的位置和作用区分核心交换机(一级)、非核心交换机(二级、三级)。一般的网络,交换机的网络组成可看成树状结构和环形结构组成的混合结构,如果把环形结构简化成网络的一个节点,那么整个网络可以看成树状结构,一层一层分级,处在第一级的为核心交换机,依次展开。通过把监控部署在一级交换机下,统一全面的监控交换机节点的通信状态,普通节点的通讯状态只有两种,通和不通,环形结构的节点状态有三种:全通、不通、半通,采集交换机的状态一般通过网络ping状态获得,依据交换机节点的拓扑关系,建立起整张网络通讯节点的状态图。
终端设备网络位置:终端设备和交换机的端口相连,找到交换机的端口就找到终端设备在网络中的位置,在终端设备基础数据管理时,包含了对应交换机的端口和设备本身的端口以及端口连线。
终端设备与应用软件对应关系:应用软件的正常工作依赖所在设备的工作状态,当终端设备不能正常工作时,其上的软件必然不能正常工作。
应用软件对系统的影响:一个系统是由很多应用软件、硬件合作支撑的,不同的应用软件、不同的故障在系统中的影响结果是不一样的,不同的系统更是千差万别。
应用软件的故障分析只能是争对特定的系统、特定的环境、软件在系统中的作用具体分析,基本不能抽象和提炼,很难找出共性和通用性,因此对软件的故障不做根源事件分析。
根源事件分析:依据交换机的网络节点状态和拓扑关系,若节点有通信故障,节点下设备故障将过滤;若节点交换机的端口通信故障,端口对应的设备故障将过滤;若终端设备通信故障,终端设备的其他事件和其上软件报警事件将过滤。
故障根源分析软件的数据处理分四个步骤:
1)轮巡相关实时状态表,获得各中设备的状态、性能数据,同时获得设备预设的状态阀值。
2)根据阀值生成报警事件,再对事件压缩,过滤。
3)对事件进行故障根源分析。
4)将事件及设备状态、性能数据存入数据库。
Claims (5)
1.一种智能交通物联网设施故障溯源判别分析方法,其特征在于,步骤为:
步骤1、数据处理、生成事件:根据状态数据和报警规则生成的单源的事件信息,报警规则由一系列阀值和触发频率定义,事件至少分为:
原始事件:被管对象代理层主动上传的事件信息;
基础事件:根据状态数据和报警规则,满足条件的单源的事件信息;
根源事件:关联性分析后,最终上报给用户的事件,其主要包括:
建立数据采集栈:数据采集上来后,对每种数据建立内存堆栈,以适应不同采集周期的数据存放,数据堆栈的存储以压栈的方式,最近周期的数据始终处于栈头,方便数据读取和分析;
采取数据存储策略:定期比较数据库,新采集的数据统一批量提交入库,从而减小对数据库的压力,同时减少数据库的连接数,节省连接资源;
数据配置队列:内存中还建有一个数据配置队列,队列中初始化了各种采集数据的采集周期、平滑周期、生成事件规则条件;
事件生成:以多线程的方式,从数据采集栈中,按照数据配置的平滑周期要求提取数据,根据事件规则,判断阀值条件、频率,符合要求的生成基础事件,写入设备事件原始队列并标记事件生成时间,依据数据采集时间标记事件开始时间;
数据恢复策略:当报警分析软件因故障崩溃,后台服务会重启软件,软件首先从数据库中读取事件原始队列中丢失的事件数据,再从各代理采集软件接收最新的采集数据,尽量把数据缺失的影响降到最小;
设备事件原始队列:该队列负责接收实时生成的基础事件和采集上来的原始事件,以及恢复事件,并同时记录和更新写库;
步骤2、事件过滤和事件压缩:
事件过滤:当同一事件的生成,有多个不同来源的数据,而数据内容比较一致时,需要根据数据的周期、延时、可靠性、采集方式等比较数据的质量和稳定性,选择其中一种作为判断事件的数据来源;
事件压缩:在同一设备上,采集数据经过判断后,同一事件连续发生时,只保留最开始的事件,直到该事件恢复为止,再次发生的同一事件才能被判定为新事件,通过对事件的压缩,可以减少很多不必要的报警,提高报警的可用性;
步骤3、根源事件智能报警分析:
依据交换机的网络节点状态和拓扑关系,若节点有通信故障,节点下设备故障将过滤;若节点交换机的端口通信故障,端口对应的设备故障将过滤;若终端设备通信故障,终端设备的其他事件和其上软件报警事件将过滤。
2.如权利要求1所述的一种智能交通物联网设施故障溯源判别分析方法,其特征在于,在步骤1中,事件至少分为四级,分别是:
普通事件:需要养护人员关注,事件作用一般为预防提醒非关键设备某些指标工作异常,但设备还能工作,不影响其他设备;
警告事件:需要设备管理员和养护人员关注,事件作用一般为提醒非关键设备工作异常或不能工作,但不影响其他设备;
严重事件:需要值班人员关注,告知设备管理员,事件作用一般为关键设备工作异常或不能工作,影响分系统内局部设备;
致命事件:需要值班人员关注,及时电话通知设备管理员和养护人员,事件作用一般为关键设备工作异常或不能工作,影响分系统全局设备或全系统正常运行。
3.如权利要求1所述的一种智能交通物联网设施故障溯源判别分析方法,其特征在于,在步骤1中采集的数据有两类分别为:设备工作状态数据和设备采集交通数据;
设备工作状态数据周期一般固定,时间间隔较长,数据存储不大,记录1个小时内,大概20个周期的数据即可,是设备报警分析的主要数据;
设备采集交通数据周期不固定,并且数据频率高,数据量大,需要做一段时间内数据跟踪和分析,是设备报警分析的辅助数据。
4.如权利要求1所述的一种智能交通物联网设施故障溯源判别分析方法,其特征在于,在步骤1中数据配置的平滑周期要根据数据的特性分别设置,对于服务器处理器CPU时间百分比,CPU的使用瞬间变化非常大,因此要获取平稳的使用状态就需要多个周期的数据进行平滑处理;但是对于机房火警等,关注的是突变状态发生,一旦发生需要立刻报警,因此不能设置多个周期。
5.如权利要求1所述的一种智能交通物联网设施故障溯源判别分析方法,其特征在于,在步骤3中,故障根源分析软件的数据处理分四个步骤:
步骤3.1、轮巡相关实时状态表,获得各中设备的状态、性能数据,同时获得设备预设的状态阀值;
步骤3.2、根据阀值生成报警事件,再对事件压缩、过滤;
步骤3.3、对事件进行故障根源分析;
步骤3.4、将事件及设备状态、性能数据存入数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310095214.7A CN104065503A (zh) | 2013-03-22 | 2013-03-22 | 一种智能交通物联网设施故障溯源判别分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310095214.7A CN104065503A (zh) | 2013-03-22 | 2013-03-22 | 一种智能交通物联网设施故障溯源判别分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104065503A true CN104065503A (zh) | 2014-09-24 |
Family
ID=51553045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310095214.7A Pending CN104065503A (zh) | 2013-03-22 | 2013-03-22 | 一种智能交通物联网设施故障溯源判别分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104065503A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106522051A (zh) * | 2016-11-11 | 2017-03-22 | 上海电科智能系统股份有限公司 | 一种城市交通智能单行道设置辅助决策方法 |
CN107423414A (zh) * | 2017-07-28 | 2017-12-01 | 西安交通大学 | 一种基于信息传递模型的流程工业复杂机电系统故障溯源方法 |
WO2018176216A1 (zh) * | 2017-03-28 | 2018-10-04 | 西门子公司 | 基于工业物联网的数据分析报告产生方法和装置 |
CN109933492A (zh) * | 2019-03-22 | 2019-06-25 | 北京极简智能科技有限公司 | 一种软件异常溯源方法、系统、设备及存储介质 |
CN111476381A (zh) * | 2020-04-08 | 2020-07-31 | 贵州爱信诺航天信息有限公司 | 基于国产化信息技术创新应用系统运维服务的方法和系统 |
CN114553808A (zh) * | 2022-04-26 | 2022-05-27 | 中国电子科技集团公司第十五研究所 | 信息处理系统 |
-
2013
- 2013-03-22 CN CN201310095214.7A patent/CN104065503A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106522051A (zh) * | 2016-11-11 | 2017-03-22 | 上海电科智能系统股份有限公司 | 一种城市交通智能单行道设置辅助决策方法 |
CN106522051B (zh) * | 2016-11-11 | 2019-07-26 | 上海电科智能系统股份有限公司 | 一种城市交通智能单行道设置辅助决策方法 |
WO2018176216A1 (zh) * | 2017-03-28 | 2018-10-04 | 西门子公司 | 基于工业物联网的数据分析报告产生方法和装置 |
CN107423414A (zh) * | 2017-07-28 | 2017-12-01 | 西安交通大学 | 一种基于信息传递模型的流程工业复杂机电系统故障溯源方法 |
CN109933492A (zh) * | 2019-03-22 | 2019-06-25 | 北京极简智能科技有限公司 | 一种软件异常溯源方法、系统、设备及存储介质 |
CN109933492B (zh) * | 2019-03-22 | 2023-01-24 | 北京极简智能科技有限公司 | 一种软件异常溯源方法、系统、设备及存储介质 |
CN111476381A (zh) * | 2020-04-08 | 2020-07-31 | 贵州爱信诺航天信息有限公司 | 基于国产化信息技术创新应用系统运维服务的方法和系统 |
CN114553808A (zh) * | 2022-04-26 | 2022-05-27 | 中国电子科技集团公司第十五研究所 | 信息处理系统 |
CN114553808B (zh) * | 2022-04-26 | 2022-08-02 | 中国电子科技集团公司第十五研究所 | 信息处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104407964B (zh) | 一种基于数据中心的集中监控系统及方法 | |
CN103491354B (zh) | 一种系统运行监控可视化平台 | |
CN104065503A (zh) | 一种智能交通物联网设施故障溯源判别分析方法 | |
CN105159964B (zh) | 一种日志监控方法及系统 | |
CN107294764A (zh) | 智能监管方法和智能监管系统 | |
CN109669406A (zh) | 一种工业设备的远程在线监测系统及其工作流程 | |
CN101997709B (zh) | 一种根告警数据分析的方法及其系统 | |
CN101095307A (zh) | 网络管理设备 | |
CN102567531B (zh) | 一种通用的轻量级数据库状态监控方法 | |
CN110046073A (zh) | 一种日志采集方法及装置、设备、存储介质 | |
CN109558301A (zh) | 一种分布式系统数据监测方法、装置及相关设备 | |
CN104574219A (zh) | 电网业务信息系统运行工况的监测预警方法及系统 | |
CN103746831A (zh) | 一种告警分析的方法、装置及系统 | |
CN112688819A (zh) | 一种用于网络运维综合管理系统 | |
CN104426697B (zh) | 网络故障管理系统 | |
CN103049365B (zh) | 信息与应用资源运行状态监控及评价方法 | |
CN107612779A (zh) | 调度数据网二次安全防护网络设备及业务运行监视系统 | |
CN102184473A (zh) | 一种电力二次系统综合监管系统 | |
CN101989931A (zh) | 一种运维告警处理方法和装置 | |
CN113505048A (zh) | 基于应用系统画像的统一监控平台及实现方法 | |
CN111864902A (zh) | 一种基于大数据的智能变电站二次设备故障综合分析系统 | |
CN102195791A (zh) | 一种告警的分析方法、装置及系统 | |
CN103618635A (zh) | 信息化设备分层关联管控系统 | |
CN113206867A (zh) | 一种智能数据采集监控系统、方法和定时采集服务模块 | |
CN103713976B (zh) | 用于信号集中监测系统的信号设备故障根源搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140924 |