CN106161085A - 消息总线的监控系统及方法 - Google Patents

消息总线的监控系统及方法 Download PDF

Info

Publication number
CN106161085A
CN106161085A CN201610446984.5A CN201610446984A CN106161085A CN 106161085 A CN106161085 A CN 106161085A CN 201610446984 A CN201610446984 A CN 201610446984A CN 106161085 A CN106161085 A CN 106161085A
Authority
CN
China
Prior art keywords
data
warning information
monitoring
messaging bus
alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610446984.5A
Other languages
English (en)
Other versions
CN106161085B (zh
Inventor
尤嘉
朱红燕
杜林�
杨利国
林城
张晓斌
贾立华
陈井波
陈广胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201610446984.5A priority Critical patent/CN106161085B/zh
Publication of CN106161085A publication Critical patent/CN106161085A/zh
Application granted granted Critical
Publication of CN106161085B publication Critical patent/CN106161085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Abstract

本发明公开了一种消息总线的监控系统,所述消息总线的监控系统包括:数据接入模块、指标计算模块和告警管理模块,其中:所述数据接入模块用于获取消息总线的监控数据,对所述监控数据进行效验,对所述效验通过的监控数据进行归一化处理生成归一化的监控数据;所述指标计算模块用于通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据;所述告警管理模块用于根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警。本发明还公开了一种消息总线的监控方法。本发明所实现了对消息总线进行自动监控,并生成告警信息进行告警,通知运维人员的功能。

Description

消息总线的监控系统及方法
技术领域
本发明涉及计算机网络领域,尤其涉及消息总线的监控系统及方法。
背景技术
随着计算机网络的发展,网络中数据的安全性及数据转发速率实时性等需求不断提高,对于银行等实时性要求极高的业务处理,对于消息总线的要求在不断提高,现有的选用硬件设备搭建消息总线,实现消息可靠、快速的传输,以及跨区域的级联,满足了上述业务需求。
但现有技术中,基于硬件设备的消息总线的运行状态需要运维人员人为的对其运行状态输出的日志进行查看,并根据运行状态进行分析,判断所述消息总线是否出现异常信息,但由于所述消息总线运行状态输出的日志数据量大,且包括多类信息,因此,使得运维人员对消息总线的监控变得复杂且效率低下,同时容易出现人为原因导致监控结果出错。
发明内容
本发明的主要目的在于提供一种消息总线的监控系统及方法,旨在解决消息总线监控数据获取难度大,难以对消息总线进行方便快捷有效的监控的技术问题。
为实现上述目的,本发明提供一种消息总线的监控系统,所述消息总线由硬件设备实现,所述消息总线的监控系统包括:数据接入模块、指标计算模块和告警管理模块,其中:
所述数据接入模块用于获取消息总线的监控数据,对所述监控数据进行效验,对所述效验通过的监控数据进行归一化处理生成归一化的监控数据;
所述指标计算模块用于通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据;
所述告警管理模块用于根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警。
优选地,所述消息总线的监控系统还包括数据存储模块和数据查询模块,其中:
所述数据存储模块用于存储所述指标计算模块生成的指标数据和/或所述告警管理模块生成的告警信息;
所述数据查询模块用于接收对所述数据存储模块存储的指标数据和/或告警信息进行查询的查询指令,根据所述查询指令查询所述数据存储模块,并返回对应的查询结果。
优选地,所述消息总线的监控系统还包括通知管理模块,所述通知管理模块用于将所述告警管理模块生成的告警信息通过预设通知方式发送给对应的告警接收人员。
优选地,所述指标计算模块包括:
数据预处理单元,用于对所述归一化的监控数据进行转换和格式化处理,生成预处理数据;
复合指标计算单元,用于根据所述预处理数据通过预设配置公式生成复合指标数据;
时间维度汇总单元,用于将所述生成的指标数据根据时间维度汇总生成多种时间维度的指标数据。
优选地,所述告警管理模块包括:
告警判定单元,用于根据所述指标数据与预设阀值的比对结果生成对应的告警信息;
告警处理单元,用于根据所述告警信息数量将所述告警信息进行合并和/或告警升级。
优选地,所述告警管理模块还包括:
告警屏蔽单元,用于根据预设的屏蔽策略对所述告警信息进行判断,当判断到所述告警信息满足所述屏蔽策略时,屏蔽所述告警信息。
此外,为实现上述目的,本发明还提供一种消息总线的监控方法,所述消息总线由硬件设备实现,所述消息总线的监控方法包括以下步骤:
获取消息总线的监控数据,对所述监控数据进行效验;
对所述效验通过的监控数据进行归一化处理生成归一化的监控数据;
通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据;
根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警。
优选地,所述通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据的步骤之后包括:
存储所述指标数据;
接收对所述指标数据进行查询的查询指令,并根据所述查询指令查询所述存储的指标数据,并返回对应的查询结果。
优选地,所述根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警的步骤之后包括:
将所述生成的告警信息通过预设通知方式发送给对应的告警接收人员。
优选地,所述通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据的步骤包括:
对所述归一化的监控数据进行转换和格式化处理,生成预处理数据;
根据所述预处理数据通过预设配置公式生成复合指标数据;
将所述生成的指标数据根据时间维度汇总生成多种时间维度的指标数据。
优选地,所述根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警的步骤包括:
根据所述指标数据与预设阀值的比对结果生成对应的告警信息;
根据所述告警信息数量将所述告警信息进行合并和/或告警升级。
优选地,所述根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警的步骤还包括:
根据预设的屏蔽策略对所述告警信息进行判断,当判断到所述告警信息满足所述屏蔽策略时,屏蔽所述告警信息。
本发明实施例提出的一种消息总线的监控系统及方法,通过获取消息总线的监控数据,根据所述监控数据计算获取的指标数据,将所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,进行告警,实现了所述监控系统对消息总线进行自动监控,且当判断到所述消息总线的监控数据超出预设阀值时,通过生成告警信息进行告警,使得告警接收人员可以立即接收到所述告警并对所述消息总线进行处理,从而实现方便快捷的对所述消息总线进行监控。
附图说明
图1为本发明消息总线的监控系统第一实施例的功能模块示意图;
图2为本发明消息总线的监控系统第二实施例的功能模块示意图;
图3为本发明消息总线的监控系统第三实施例的功能模块示意图;
图4为本发明消息总线的监控系统第四实施例的功能模块示意图;
图5为本发明消息总线的监控系统第五实施例的功能模块示意图;
图6为本发明消息总线的监控方法第一实施例的流程示意图;
图7为本发明消息总线的监控方法第二实施例的流程示意图;
图8为本发明消息总线的监控方法第三实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是提供一种消息总线的监控系统包括用于获取消息总线的监控数据,对所述监控数据进行效验,对所述效验通过的监控数据进行归一化处理生成归一化的监控数据的数据接入模块;用于通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据的指标计算模块;用于根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警的告警管理模块。
由于现有技术仅能通过查看消息总线的运行信息对所述消息总线进行监控。
本发明提供一种解决方案,使消息总线监控人员可以更为方便快捷且有效的监控所述消息总线,且能够及时接收到根据所述消息总线监控数据生成的告警信息,根据告警信息及时响应,对所述消息总线进行监控。
参照图1,为本发明消息总线的监控系统第一实施例,所述消息总线的监控系统包括:
数据接入模块100,用于获取消息总线的监控数据,对所述监控数据进行效验。
获取消息总线通过预设通讯协议发送的监控数据,并对所述监控数据进行校验,其中,所述对监控数据进行校验可以包括:权限校验和数据校验。
一实施例中,所述权限校验包括对所述监控数据数据源的IP地址白名单进行校验,所述监控数据数据源的IP地址在所述白名单中则校验通过,不在所述白名单中则校验失败。进一步的,为了保证在异常流量下的稳定性,所述权限校验还可以包括异常限流控制,若发生流量异常,则开启异常限流控制。
进一步的,另一实施例中,为保证监控数据的正确性,所述数据校验包括根据预设的适配器对所述监控数据进行正确性校验,所述正确性校验可以包括:判断所述监控数据是否超过理论最大值或低于理论最小值、判断所述监控数据的数据格式是否正确和校验所述监测数据字段长度及字段的完整性。
所述数据接入模块100还用于对所述效验通过的监控数据进行归一化处理生成归一化的监控数据。
为屏蔽监控数据的数据格式差异性,对通过所述校验的监控数据进行归一化处理,生成归一化的监控数据,屏蔽后续处理中的数据差异性。
指标计算模块200,用于通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据。
为便于对所述消息总线的进行监控,根据预设算法对所述生成的归一化的监控数据进行计算处理,生成用于告警阀值判断和曲线展示的指标数据,所述曲线展示用于通过用户交互界面直观的将所述消息总线的监控数据展示出来,为对所述消息总线的监控提供了更好的支持。
告警管理模块300,用于根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警。
根据所述生成的指标数据与预设阀值进行比对,所述预设阀值可以由系统默认配置或用户设置,当所述指标数据超过所述预设阀值时,则根据所述指标数据生成对应告警信息,并根据所述告警信息进行告警。进一步的,所述告警信息可以包括告警类型和告警级别,针对不同的告警类型和不同告警级别的告警信息采用不同的告警方式进行告警。进一步的,所述预设阀值可以由运维人员管理,也可以根据所述消息总线的信息自动生成更新。
具体实施时,以所述消息总线由Solace设备实现为例,一实施例的具体实施步骤包括:
1)通过预设的SEMP协议获取Solace管理端的所有Queue(消息队列)的BindCount(绑定计数)信息,优选地,由于所述Solace设备中存在多个Queue,因此,为保证获取数据的实时性及准确性,采用间歇性的、小量多次的获取BindCount信息;
2)对所述获取到的BindCount信息进行校验和归一化处理,将所述BindCount信息转换为预设格式的监控数据,所述监控数据中BindCount的数据即为所述监控数据的指标数据;
3)将所述BindCount的数值与预设阀值进行对比,当所述BindCount的数值大于预设阀值时,根据所述BindCount与预设阀值的差值判定告警级别,生成对应的告警信息;
4)将所述告警信息推送给屏幕投影,将所述告警信息通过PC端进行实时展示。
需要说明的是,上述实施例中,所述SEMP协议是Solace Element ManagementProtocol的缩写,它是Solace设备自身提供的一套基于XML文本的数据请求和响应协议。SEMP允许通过Solace CLI、HTTP等多种形式请求维护在Solace管理端中的数据。本方案作为一种远程监控实现,利用SEMP协议采用HTTP方式完成对Solace管理端性能数据的抓取和监控。所述Queue的BindCount指的是硬件设备中每一个Queue绑定的客户端的数量,每一个Queue都有其最大的BindCount限制,一旦超过该限制,硬件设备将会拒绝其余的连接请求,造成的服务的不可用,因此需要在BindCount限制达到最大限制之前对其进行预警。
另一实施例中,对所述Solace设备的log进行监控,具体实施步骤包括:
a.Solace设备在Client消息报文转发的过程中出现丢包现象;
b.Solace输出本机log,并通过Syslog协议发送所述log信息;
c.接收所述log信息,对所述log信息的源IP和限流策略进行权限验证;
d.对所述log信息基于关键字匹配,完成对告警类型、告警级别、告警持续周期等信息进行判定,确认所述log产生一条告警;
e.根据告警信息在指定的时间周期,向指定的用户进行RTX(Real TimeeXchange,一种即时通讯平台)、邮件、微信、短信等方式的通知,并完成在告警投影屏幕和告警列表中的推送展示。
需要说明的是,所述Syslog协议是一种通用的日志推送协议,硬件设备以Syslog协议的格式输出日志,所述日志包括:操作日志、系统日志、错误日志。
在本实施例中,通过获取消息总线的监控数据,对监控数据进行校验及归一化处理后生成归一化的监控数据,再通过预设算法获得指标数据,通过对比指标数据与预设阀值,生成对应的告警信息并进行告警,使运维人员通过设置预设阀值,便能对消息总线进行监控,实时接收到告警信息,简化了运维人员监控操作步骤,降低了监控难度。
进一步的,参照图2,为本发明消息总线的监控系统第二实施例,基于上述图1所示的实施例,所述消息总线的监控系统还包括:
数据存储模块401,用于存储所述生成的指标计算模块生成的指标数据和/或所述告警管理模块生成的告警信息。
为便于后续指标数据及告警信息的查询,对所述指标数据和/或告警信息进行存储。一实施例中,将所述指标数据和告警信息持久化到不同的存储介质中。进一步的,根据所述指标数据和告警信息时间粒度和存储周期的区别,采用分表的方式将所述指标数据和告警信息持久化到不同的表库内。进一步的,对于需要长期存储的指标数据和告警信息,将其存储到大数据平台中。
数据查询模块402,用于接收对所述数据存储模块存储的指标数据和/或告警信息进行查询的查询指令,并根据所述查询指令查询所述数据存储模块,并返回对应的查询结果。
为方便管理员对所述消息总线进行监控,提供查询服务,接收针对于所述指标数据和/或告警信息进行查询的查询指令,根据所述查询指令查询存储的指标数据和/或告警信息,返回对应的查询结果。一实施例中,通过WebService API的方式提供给运维人员对所述指标数据和/或告警信息进行查询,具体实现时,运维人员可通过PC web、Pad端、微信公众号等多终端及多种媒体上对所述存储的指标数据和/或告警信息进行查询。优选的,为方便运维人员获得直观的数据,所述指标数据和/或告警信息以曲线图的形式进行展示。进一步的,对所述告警信息的查询,基于告警级别、告警对象、告警状态和告警内容等多种过滤方式的告警查询。进一步的,对所述指标数据的查询,基于指标ID、时间维度、时间范围等多种过滤方式的指标数据查询。
具体实施时,以所述消息总线由硬件设备提供为例,本实施例的具体实施步骤包括:
1)通过预设的SEMP协议获取Solace管理端的所有Queue的BindCount信息,优选地,由于所述Solace设备中存在多个Queue,因此,为保证获取数据的实时性及准确性,采用间歇性的、小量多次的获取BindCount信息;
2)对所述获取到的BindCount信息进行校验和归一化处理,将所述BindCount信息转换为预设格式的监控数据,所述监控数据中BindCount的数据即为所述监控数据的指标数据;
3)将所述BindCount的数值与预设阀值进行对比,当所述BindCount的数值大于预设阀值时,根据所述BindCount与预设阀值的差值判定告警级别,生成对应的告警信息;
4)将所述Queue的BindCount值及所述告警信息进行持久化;
5)当接收到运维人员对Queue的BindCount值进行查询时,获取存储的对应的BindCount值,生成BindCount监控曲线图,当接收到运维人员对告警信息进行查询时,获取存储的告警信息。
在本实施例中,基于上一实施例所述的优点,通过对生成的指标数据及告警信息进行存储,并提供给运维人员查询接口,使运维人员可以对消息总线的历史监控记录进行查询,增加了适用性。
进一步的,参照图3,为本发明消息总线的监控系统第三实施例,基于上述图1所示的实施例,所述消息总线的监控系统还包括:
通知管理模块500,用于将所述告警管理模块生成的告警信息通过预设通知方式发送给对应的告警接收人员。
为便于运维人员能够及时了解消息总线的信息,将所述生成的告警信息通过预设通知方式发送给对应的告警接收人员,所述通知包括短信、RTX、邮件、微信、公众号等多种方式。
进一步的,在预设周期内将所述生成的告警信息通过预设通知方式发送给对应的告警接收人员。优选地,所述告警接收人员可以为告警接收人或接收人组,所述预设周期用于对通知的时间进行管理控制,一实施例中,所述预设周期为固定的工作时间段,则仅在工作时间段内将所述告警信息发送给对应的告警接收人员。
进一步的,所述预设通知方式可以为通知策略,基于告警影响的业务范围、告警级别等区别构建出不同的通知策略,仅当在满足某通知策略要求时,才将告警信息发给指定的接收人。进一步的,运维人员可以对告警接收人和告警接收人组进行管理,添加、修改或删除告警接收人。
在本实施例中,基于上一实施例所述的优点,通过预设通知方式将告警信息发送给告警接收人员,使得所述消息总线产生告警时,可以及时准确的通知告警接收人员,使得告警接收人员可以及时作出响应,处理告警信息。
进一步的,参照图4,为本发明消息总线的监控系统第四实施例,基于上述图1所示的实施例,所述指标计算模块200包括:
数据预处理单元201,用于对所述归一化的监控数据进行转换和格式化处理,生成预处理数据。
为消除原始数据和最终指标数据存在的差异性,对归一化的监控数据进行转换和格式化处理,例如,将所述监控数据与上一周期的数据求差值得到增量值、增加或减少预设值、转换成百分比等。
复合指标计算单元202,用于根据所述预处理数据通过预设配置公式生成复合指标数据。
由于一个监控指标的产生依赖多个相关的指标,形成一个最终由于告警判定和曲线展示的复合指标,因此根据所述预处理数据通过预设配置公式生成复合指标数据,完成对复合指标的计算。
时间维度汇总单元203,用于将所述生成的指标数据根据时间维度汇总生成多种时间维度的指标数据。
按照指标数据的类型,将所述指标数据汇总生成多种时间维度的指标数据,例如:通过1分钟的数据汇总成5分钟、1小时、1天等多种时间维度的求和数据或均值数据,并用这些数据用于后续的告警判断,或指标曲线展示。
本实施例中,基于上一实施例所述的优点,对监控数据进行处理生成对应的指标数据,使获得的指标数据能够更好的反映所述消息总线的情况,为生成告警信息提供可靠的数据来源。
进一步的,参照图5,为本发明消息总线的监控系统第五实施例,基于上述图1所示的实施例,所述告警管理模块300包括:
告警判定单元301,用于根据所述指标数据与预设阀值的比对结果生成对应的告警信息。
根据所述指标数据的当前值和预设阀值对比,完成对告警级别的判定,并将所述指标数据的当前值和历史值进行对比得到变化趋势,并将结果与同环比阀值进行判定,例如:所述指标数据的当前值超过60出Waring级别告警,超过70出Critical级别告警,或同比超过50%的出Waring级别告警,环比超过100%出Critical级别告警。
进一步的,为避免流量毛刺或偶发错误产生的告警干扰,对所述指标数据进行持续周期判定,在连续出现预设个数周期的阀值越线后,才产生告警。
告警处理单元302,用于根据所述告警信息数量将所述告警信息进行合并和/或告警升级。
在一定周期内产生大量同种类型的告警时,将多个同类型告警归并为一条进行展示,或短时间内,大量低级别的告警同时出现,将升级产生一条高级别的告警,或反复出现指标的越线和恢复时产生一条低级别的告警。
进一步的,分析告警之间的关联关系,找出告警发生的根源,便于运维人员能在第一时间发现并解决问题。进一步的,对告警恢复策略进行管理,实现告警的自动恢复,当连续采集的预设个数指标数据都恢复正常后,自动清除掉告警信息。
进一步的,所述告警管理模块300还包括:
告警屏蔽单元303,用于根据预设的屏蔽策略对所述告警信息进行判断,当判断到所述告警信息满足所述屏蔽策略时,屏蔽所述告警信息。
根据预设屏蔽策略及屏蔽时间周期对所述告警信息进行判断,对特定告警IP、告警对象、告警内容的告警消息的周期性屏蔽操作。
在本实施例中,基于上一实施例所述的优点,根据所述指标数据对告警信息进行判定,生成不同告警级别的告警,并对告警信息进行合并和/或升级,使所述生成的告警信息更为准确,减少了运维人员的工作负担,且屏蔽运维人员允许的告警信息。
参照图6,为本发明消息总线的监控方法第一实施例,所述消息总线的监控方法包括:
步骤S100,获取消息总线的监控数据,对所述监控数据进行效验。
获取消息总线通过预设通讯协议发送的监控数据,并对所述监控数据进行校验,其中,所述对监控数据进行校验可以包括:权限校验和数据校验。
一实施例中,所述权限校验包括对所述监控数据数据源的IP地址白名单进行校验,所述监控数据数据源的IP地址在所述白名单中则校验通过,不在所述白名单中则校验失败。进一步的,为了保证在异常流量下的稳定性,所述权限校验还可以包括异常限流控制,若发生流量异常,则开启异常限流控制。
进一步的,另一实施例中,为保证监控数据的正确性,所述数据校验包括根据预设的适配器对所述监控数据进行正确性校验,所述正确性校验可以包括:判断所述监控数据是否超过理论最大值或低于理论最小值、判断所述监控数据的数据格式是否正确和校验所述监测数据字段长度及字段的完整性。
步骤S200,对所述效验通过的监控数据进行归一化处理生成归一化的监控数据。
为屏蔽监控数据的数据格式差异性,对通过所述校验的监控数据进行归一化处理,生成归一化的监控数据,屏蔽后续处理中的数据差异性。
步骤S300,通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据。
为便于对所述消息总线的进行监控,根据预设算法对所述生成的归一化的监控数据进行计算处理,生成用于告警阀值判断和曲线展示的指标数据,所述曲线展示用于通过用户交互界面直观的将所述消息总线的监控数据展示出来,为对所述消息总线的监控提供了更好的支持。
步骤S400,根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警。
根据所述生成的指标数据与预设阀值进行比对,所述预设阀值可以由系统默认配置或用户设置,当所述指标数据超过所述预设阀值时,则根据所述指标数据生成对应告警信息,并根据所述告警信息进行告警。进一步的,所述告警信息可以包括告警类型和告警级别,针对不同的告警类型和不同告警级别的告警信息采用不同的告警方式进行告警。进一步的,所述预设阀值可以由运维人员管理,也可以根据所述消息总线的信息自动生成更新。
具体实施时,以所述消息总线由Solace设备提供为例,一实施例的具体实施步骤包括:
1)通过预设的SEMP协议获取Solace管理端的所有Queue的BindCount信息,优选地,由于所述Solace设备中存在多个Queue,因此,为保证获取数据的实时性及准确性,采用间歇性的、小量多次的获取BindCount信息;
2)对所述获取到的BindCount信息进行校验和归一化处理,将所述BindCount信息转换为预设格式的监控数据,所述监控数据中BindCount的数据即为所述监控数据的指标数据;
3)将所述BindCount的数值与预设阀值进行对比,当所述BindCount的数值大于预设阀值时,根据所述BindCount与预设阀值的差值判定告警级别,生成对应的告警信息;
4)将所述告警信息推送给屏幕投影,将所述告警信息通过PC端进行实时展示。
另一实施例中,对所述Solace设备的log进行监控,具体实施步骤包括:
a.Solace设备在Client消息报文转发的过程中出现丢包现象;
b.Solace输出本机log,并通过Syslog协议发送所述log信息;
c.接收所述log信息,对所述log信息的源IP和限流策略进行权限验证;
d.对所述log信息基于关键字匹配,完成对告警类型、告警级别、告警持续周期等信息进行判定,确认所述log产生一条告警;
e.根据告警信息在指定的时间周期,向指定的用户进行RTX、邮件、微信、短信等方式的通知,并完成在告警投影屏幕和告警列表中的推送展示。
在本实施例中,通过获取消息总线的监控数据,对监控数据进行校验及归一化处理后生成归一化的监控数据,再通过预设算法获得指标数据,通过对比指标数据与预设阀值,生成对应的告警信息并进行告警,使运维人员通过设置预设阀值,便能对消息总线进行监控,实时接收到告警信息,简化了运维人员监控操作步骤,降低了监控难度。
进一步的,参照图7,为本发明消息总线的监控方法第二实施例,基于上述图6所示的实施例,所述步骤S300,通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据之后包括:
步骤S501,存储所述指标数据。
为便于后续指标数据的查询,对所述指标数据进行存储。一实施例中,还可以将所述指标数据持久化到不同的存储介质中。进一步的,还包括对所述告警信息进行存储,方便对所述告警信息进行查询。进一步的,根据所述指标数据和告警信息时间粒度和存储周期的区别,采用分表的方式将所述指标数据和告警信息持久化到不同的表库内。进一步的,对于需要长期存储的指标数据和告警信息,将其存储到大数据平台中。
步骤S502,接收对所述指标数据进行查询的查询指令,根据所述查询指令查询所述存储的指标数据,并返回对应的查询结果。
为方便管理员对所述消息总线进行监控,提供查询服务,接收针对于所述指标数据进行查询的查询指令,根据所述查询指令查询存储的指标数据,返回对应的查询结果。一实施例中,通过WebService API的方式提供给运维人员对所述指标数据进行查询,具体实现时,运维人员可通过PC web、Pad端、微信公众号等多终端及多种媒体上对所述存储的指标数据进行查询。优选的,为方便运维人员获得直观的数据,所述指标数据以曲线图的形式进行展示。进一步的,对所述告警信息的查询,基于告警级别、告警对象、告警状态和告警内容等多种过滤方式的告警查询。进一步的,对所述指标数据的查询,基于指标ID、时间维度、时间范围等多种过滤方式的指标数据查询。
具体实施时,以所述消息总线由Solace设备提供为例,本实施例的具体实施步骤包括:
1)通过预设的SEMP协议获取Solace管理端的所有Queue的BindCount信息,优选地,由于所述Solace设备中存在多个Queue,因此,为保证获取数据的实时性及准确性,采用间歇性的、小量多次的获取BindCount信息;
2)对所述获取到的BindCount信息进行校验和归一化处理,将所述BindCount信息转换为预设格式的监控数据,所述监控数据中BindCount的数据即为所述监控数据的指标数据;
3)将所述BindCount的数值与预设阀值进行对比,当所述BindCount的数值大于预设阀值时,根据所述BindCount与预设阀值的差值判定告警级别,生成对应的告警信息;
4)将所述Queue的BindCount值及所述告警信息进行持久化;
5)当接收到运维人员对Queue的BindCount值进行查询时,获取存储的对应的BindCount值,生成BindCount监控曲线图,当接收到运维人员对告警信息进行查询时,获取存储的告警信息。
在本实施例中,基于上一实施例所述的优点,通过对生成的指标数据及告警信息进行存储,并提供给运维人员查询接口,使运维人员可以对消息总线的历史监控记录进行查询,增加了适用性。
进一步的,参照图8,为本发明消息总线的监控方法第三实施例,基于上述图6所示的实施例,所述步骤S400,根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警之后包括:
步骤S600,将所述生成的告警信息通过预设通知方式发送给对应的告警接收人员。
为便于运维人员能够及时了解消息总线的信息,将所述生成的告警信息通过预设通知方式发送给对应的告警接收人员,所述通知包括短信、RTX、邮件、微信、公众号等多种方式。
进一步的,在预设周期内将所述生成的告警信息通过预设通知方式发送给对应的告警接收人员。优选地,所述告警接收人员可以为告警接收人或接收人组,所述预设周期用于对通知的时间进行管理控制,一实施例中,所述预设周期为固定的工作时间段,则仅在工作时间段内将所述告警信息发送给对应的告警接收人员。
进一步的,所述预设通知方式可以为通知策略,基于告警影响的业务范围、告警级别、Solace实例等区别构建出不同的通知策略,仅当在满足某通知策略要求时,才将告警信息发给指定的接收人。进一步的,运维人员可以对告警接收人和告警接收人组进行管理,添加、修改或删除告警接收人。
在本实施例中,基于上一实施例所述的优点,通过预设通知方式将告警信息发送给告警接收人员,使得所述消息总线产生告警时,可以及时准确的通知告警接收人员,使得告警接收人员可以及时作出响应,处理告警信息。
进一步的,为本发明消息总线的监控方法第四实施例,基于上述图6所示的实施例,所述步骤S300,通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据包括:
步骤S301,对所述归一化的监控数据进行转换和格式化处理,生成预处理数据。
为消除原始数据和最终指标数据存在的差异性,对归一化的监控数据进行转换和格式化处理,例如,将所述监控数据与上一周期的数据求差值得到增量值、增加或减少预设值、转换成百分比等。
步骤S302,根据所述预处理数据通过预设配置公式生成复合指标数据。
由于一个监控指标的产生依赖多个相关的指标,形成一个最终由于告警判定和曲线展示的复合指标,因此根据所述预处理数据通过预设配置公式生成复合指标数据,完成对复合指标的计算。
步骤S303,将所述生成的指标数据根据时间维度汇总生成多种时间维度的指标数据。
按照指标数据的类型,将所述指标数据汇总生成多种时间维度的指标数据,例如:通过1分钟的数据汇总成5分钟、1小时、1天等多种时间维度的求和数据或均值数据,并用这些数据用于后续的告警判断,或指标曲线展示。
本实施例中,基于上一实施例所述的优点,对监控数据进行处理生成对应的指标数据,使获得的指标数据能够更好的反映所述消息总线的情况,为生成告警信息提供可靠的数据来源。
进一步的,为本发明消息总线的监控方法第五实施例,基于上述图6所示的实施例,所述步骤S400,根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警包括:
步骤S401,根据所述指标数据与预设阀值的比对结果生成对应的告警信息。
根据所述指标数据的当前值和预设阀值对比,完成对告警级别的判定,并将所述指标数据的当前值和历史值进行对比得到变化趋势,并将结果与同环比阀值进行判定,例如:所述指标数据的当前值超过60出Waring级别告警,超过70出Critical级别告警,或同比超过50%的出Waring级别告警,环比超过100%出Critical级别告警。
进一步的,为避免流量毛刺或偶发错误产生的告警干扰,对所述指标数据进行持续周期判定,在连续出现预设个数周期的阀值越线后,才产生告警。
步骤S402,根据所述告警信息数量将所述告警信息进行合并和/或告警升级。
在一定周期内产生大量同种类型的告警时,将多个同类型告警归并为一条进行展示,或短时间内,大量低级别的告警同时出现,将升级产生一条高级别的告警,或反复出现指标的越线和恢复时产生一条低级别的告警。
进一步的,分析告警之间的关联关系,找出告警发生的根源,便于运维人员能在第一时间发现并解决问题。进一步的,对告警恢复策略进行管理,实现告警的自动恢复,当连续采集的预设个数指标数据都恢复正常后,自动清除掉告警信息。
进一步的,所述步骤S400还包括:
步骤S403,根据预设的屏蔽策略对所述告警信息进行判断,当判断到所述告警信息满足所述屏蔽策略时,屏蔽所述告警信息。
根据预设屏蔽策略及屏蔽时间周期对所述告警信息进行判断,对特定告警IP、告警对象、告警内容的告警消息的周期性屏蔽操作。
在本实施例中,基于上一实施例所述的优点,根据所述指标数据对告警信息进行判定,生成不同告警级别的告警,并对告警信息进行合并和/或升级,使所述生成的告警信息更为准确,减少了运维人员的工作负担,且屏蔽运维人员允许的告警信息。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (12)

1.一种消息总线的监控系统,所述消息总线由硬件设备实现,其特征在于,所述消息总线的监控系统包括:数据接入模块、指标计算模块和告警管理模块,其中:
所述数据接入模块用于获取消息总线的监控数据,对所述监控数据进行效验,对所述效验通过的监控数据进行归一化处理生成归一化的监控数据;
所述指标计算模块用于通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据;
所述告警管理模块用于根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警。
2.如权利要求1所述的消息总线的监控系统,其特征在于,所述消息总线的监控系统还包括数据存储模块和数据查询模块,其中:
所述数据存储模块用于存储所述指标计算模块生成的指标数据和/或所述告警管理模块生成的告警信息;
所述数据查询模块用于接收对所述数据存储模块存储的指标数据和/或告警信息进行查询的查询指令,并根据所述查询指令查询所述数据存储模块,并返回对应的查询结果。
3.如权利要求1所述的消息总线的监控系统,其特征在于,所述消息总线的监控系统还包括通知管理模块,所述通知管理模块用于将所述告警管理模块生成的告警信息通过预设通知方式发送给对应的告警接收人员。
4.如权利要求1-3中任一项所述的消息总线的监控系统,其特征在于,所述指标计算模块包括:
数据预处理单元,用于对所述归一化的监控数据进行转换和格式化处理,生成预处理数据;
复合指标计算单元,用于根据所述预处理数据通过预设配置公式生成复合指标数据;
时间维度汇总单元,用于将所述生成的指标数据根据时间维度汇总生成多种时间维度的指标数据。
5.如权利要求1-3中任一项所述的消息总线的监控系统,其特征在于,所述告警管理模块包括:
告警判定单元,用于根据所述指标数据与预设阀值的比对结果生成对应的告警信息;
告警处理单元,用于根据所述告警信息数量将所述告警信息进行合并和/或告警升级。
6.如权利要求5所述的消息总线的监控系统,其特征在于,所述告警管理模块还包括:
告警屏蔽单元,用于根据预设的屏蔽策略对所述告警信息进行判断,当判断到所述告警信息满足所述屏蔽策略时,屏蔽所述告警信息。
7.一种消息总线的监控方法,所述消息总线由硬件设备实现,其特征在于,所述消息总线的监控方法包括以下步骤:
获取消息总线的监控数据,对所述监控数据进行效验;
对所述效验通过的监控数据进行归一化处理生成归一化的监控数据;
通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据;
根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警。
8.如权利要求7所述的消息总线的监控方法,其特征在于,所述通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据的步骤之后包括:
存储所述指标数据;
接收对所述指标数据进行查询的查询指令,根据所述查询指令查询所述存储的指标数据,并返回对应的查询结果。
9.如权利要求7所述的消息总线的监控方法,其特征在于,所述根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警的步骤之后包括:
将所述生成的告警信息通过预设通知方式发送给对应的告警接收人员。
10.如权利要求7-9中任一项所述的消息总线的监控方法,其特征在于,所述通过预设算法对所述生成的归一化的监控数据进行计算,生成指标数据的步骤包括:
对所述归一化的监控数据进行转换和格式化处理,生成预处理数据;
根据所述预处理数据通过预设配置公式生成复合指标数据;
将所述生成的指标数据根据时间维度汇总生成多种时间维度的指标数据。
11.如权利要求7-9中任一项所述的消息总线的监控方法,其特征在于,所述根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警的步骤包括:
根据所述指标数据与预设阀值的比对结果生成对应的告警信息;
根据所述告警信息数量将所述告警信息进行合并和/或告警升级。
12.如权利要求11所述的消息总线的监控方法,其特征在于,所述根据所述指标数据与预设阀值进行比对,当所述指标数据超过所述预设阀值时生成告警信息,并根据所述告警信息进行告警的步骤还包括:
根据预设的屏蔽策略对所述告警信息进行判断,当判断到所述告警信息满足所述屏蔽策略时,屏蔽所述告警信息。
CN201610446984.5A 2016-06-20 2016-06-20 消息总线的监控系统及方法 Active CN106161085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610446984.5A CN106161085B (zh) 2016-06-20 2016-06-20 消息总线的监控系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610446984.5A CN106161085B (zh) 2016-06-20 2016-06-20 消息总线的监控系统及方法

Publications (2)

Publication Number Publication Date
CN106161085A true CN106161085A (zh) 2016-11-23
CN106161085B CN106161085B (zh) 2019-05-03

Family

ID=57353525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610446984.5A Active CN106161085B (zh) 2016-06-20 2016-06-20 消息总线的监控系统及方法

Country Status (1)

Country Link
CN (1) CN106161085B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107769971A (zh) * 2017-10-23 2018-03-06 郑州云海信息技术有限公司 一种基于微信通知的服务器安全监控日志告警系统及方法
CN108572907A (zh) * 2018-01-25 2018-09-25 北京金山云网络技术有限公司 一种告警方法、装置、电子设备及计算机可读存储介质
CN108737199A (zh) * 2018-06-27 2018-11-02 国网福建省电力有限公司 基于即时通讯系统的自动化运维系统及方法
CN109726072A (zh) * 2018-07-18 2019-05-07 平安科技(深圳)有限公司 WebLogic服务器的监控告警方法、装置、系统及计算机存储介质
CN109858868A (zh) * 2018-12-17 2019-06-07 中体彩科技发展有限公司 体彩业务风险监控系统
CN110543410A (zh) * 2019-09-05 2019-12-06 曙光信息产业(北京)有限公司 一种处理集群指标的方法、查询集群指标的方法和装置
CN111934895A (zh) * 2019-05-13 2020-11-13 中国移动通信集团湖北有限公司 网络管理系统的智能预警方法、装置、计算设备
CN116318969A (zh) * 2023-03-15 2023-06-23 中国华能集团有限公司北京招标分公司 一种多元设备日志接入方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079683A (zh) * 2007-06-27 2007-11-28 中国移动通信集团四川有限公司 数据一致性处理方法
US20090204168A1 (en) * 2005-07-29 2009-08-13 Medtronic, Inc. Implantable medical device bus system and method
CN105592151A (zh) * 2015-12-18 2016-05-18 畅捷通信息技术股份有限公司 数据处理方法及数据处理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090204168A1 (en) * 2005-07-29 2009-08-13 Medtronic, Inc. Implantable medical device bus system and method
CN101079683A (zh) * 2007-06-27 2007-11-28 中国移动通信集团四川有限公司 数据一致性处理方法
CN105592151A (zh) * 2015-12-18 2016-05-18 畅捷通信息技术股份有限公司 数据处理方法及数据处理装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107769971A (zh) * 2017-10-23 2018-03-06 郑州云海信息技术有限公司 一种基于微信通知的服务器安全监控日志告警系统及方法
CN108572907B (zh) * 2018-01-25 2022-05-06 北京金山云网络技术有限公司 一种告警方法、装置、电子设备及计算机可读存储介质
CN108572907A (zh) * 2018-01-25 2018-09-25 北京金山云网络技术有限公司 一种告警方法、装置、电子设备及计算机可读存储介质
CN108737199A (zh) * 2018-06-27 2018-11-02 国网福建省电力有限公司 基于即时通讯系统的自动化运维系统及方法
CN109726072A (zh) * 2018-07-18 2019-05-07 平安科技(深圳)有限公司 WebLogic服务器的监控告警方法、装置、系统及计算机存储介质
CN109726072B (zh) * 2018-07-18 2022-01-14 平安科技(深圳)有限公司 WebLogic服务器的监控告警方法、装置、系统及计算机存储介质
CN109858868B (zh) * 2018-12-17 2022-02-25 中体彩科技发展有限公司 体彩业务风险监控系统
CN109858868A (zh) * 2018-12-17 2019-06-07 中体彩科技发展有限公司 体彩业务风险监控系统
CN111934895A (zh) * 2019-05-13 2020-11-13 中国移动通信集团湖北有限公司 网络管理系统的智能预警方法、装置、计算设备
CN111934895B (zh) * 2019-05-13 2022-11-15 中国移动通信集团湖北有限公司 网络管理系统的智能预警方法、装置、计算设备
CN110543410A (zh) * 2019-09-05 2019-12-06 曙光信息产业(北京)有限公司 一种处理集群指标的方法、查询集群指标的方法和装置
CN116318969A (zh) * 2023-03-15 2023-06-23 中国华能集团有限公司北京招标分公司 一种多元设备日志接入方法
CN116318969B (zh) * 2023-03-15 2024-01-26 中国华能集团有限公司北京招标分公司 一种多元设备日志接入方法

Also Published As

Publication number Publication date
CN106161085B (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN106161085A (zh) 消息总线的监控系统及方法
CN110493348B (zh) 一种基于物联网的智能监控报警系统
CN102447570B (zh) 一种基于健康度分析的监控装置及方法
CN103491354B (zh) 一种系统运行监控可视化平台
CN106452881B (zh) 一种基于云加端模式的运维数据处理系统
CN108572907B (zh) 一种告警方法、装置、电子设备及计算机可读存储介质
CN107612779B (zh) 调度数据网二次安全防护网络设备及业务运行监视系统
CN108365985A (zh) 一种集群管理方法、装置、终端设备及存储介质
CN107294764A (zh) 智能监管方法和智能监管系统
US20050228880A1 (en) System and method for monitoring processes of an information technology system
CN111162949A (zh) 一种基于Java字节码嵌入技术的接口监测方法
CN107958337A (zh) 一种信息资源可视化移动管理系统
CN107104840A (zh) 一种日志监控方法、装置及系统
CN101095307A (zh) 网络管理设备
CN103295155A (zh) 证券核心业务系统监控方法
CN109728979A (zh) 适用于信息运维综合监管平台的自动告警系统及方法
CN110221947A (zh) 告警信息巡检方法、系统、计算机装置及可读存储介质
CN113242153B (zh) 一种基于网络流量监控的面向应用的监控分析方法
CN112787890B (zh) 区块链监测系统
CN109032904A (zh) 被监控、管理服务器及数据获取、分析方法和管理系统
CN103049365A (zh) 信息与应用资源运行状态监控及评价方法
KR100984282B1 (ko) 메모리캐쉬를 이용한 통합보안관리시스템
CN109639508A (zh) 一种智能数据中心语音声光报警监控系统
CN110113208A (zh) 报警信息处理方法、装置、设备及计算机可读存储介质
CN112667475A (zh) 一种风险通知方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant