CN107332680A - 一种系统监控方法及装置 - Google Patents

一种系统监控方法及装置 Download PDF

Info

Publication number
CN107332680A
CN107332680A CN201610274173.1A CN201610274173A CN107332680A CN 107332680 A CN107332680 A CN 107332680A CN 201610274173 A CN201610274173 A CN 201610274173A CN 107332680 A CN107332680 A CN 107332680A
Authority
CN
China
Prior art keywords
operation system
information
status information
control point
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610274173.1A
Other languages
English (en)
Inventor
包玉雪
刘涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Commerce Group Co Ltd
Original Assignee
Suning Commerce Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Commerce Group Co Ltd filed Critical Suning Commerce Group Co Ltd
Priority to CN201610274173.1A priority Critical patent/CN107332680A/zh
Publication of CN107332680A publication Critical patent/CN107332680A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/084Configuration by using pre-existing information, e.g. using templates or copying from other elements
    • H04L41/0843Configuration by using pre-existing information, e.g. using templates or copying from other elements based on generic templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种系统监控方法及装置,涉及互联网技术领域,能够提高业务系统中的异常点的排查效率。本发明包括:根据业务系统的运行数据实时生成相应的日志状态信息,并在业务系统出现异常业务数据时,提取对应异常业务数据的日志状态信息,并依据日志状态信息确定监控点在业务系统中的位置,从而根据监控点在业务系统中的位置,确定业务系统中的发生异常的环节。本发明适用于基于大数据的业务处理系统中回溯并快速定位异常点。

Description

一种系统监控方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种系统监控方法及装置。
背景技术
基于大数据的业务处理系统,已被广泛应用在电子商务平台、信息管理中心等应用场景,这类业务处理系统具有实时处理数据量大,处理速度快的特点。在业务数据的处理过程中,为了维护业务系统的稳定,需要实时监控业务数据,并在出现异常数据时进行告警。
目前,进行异常数据分析和告警的方式,主要还是对业务日志进行分析,对基于大数据的业务处理系统的异常或故障进行回溯,并向技术人员发送告警信息并通报异常点。但是,随着近几年互联网技术的飞速发展,业务处理系统愈发复杂,实时刷新的业务日志的数据量庞大,导致了业务日志越来越动态化,现有的对业务日志进行分析的方案已经难以满足数据量庞大的业务日志,导致异常点排查效率降低,技术人员难以及时获取告警信息。
发明内容
本发明的实施例提供一种系统监控方法及装置,能够提高业务系统中的异常点的排查效率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供一种系统监控方法,包括:
根据业务系统的运行数据,生成日志状态信息,所述日志状态信息包括:时间信息、线程信息、日志跟踪号和监控消息,所述日志状态信息与所述日志状态信息关联的日志数据对应相同的日志跟踪号,所述监控消息用于记录设置在所述业务系统中的监控点的位置;
当所述业务系统出现异常业务数据时,提取对应所述异常业务数据的日志状态信息,并确定对应所述异常业务数据的日志状态信息的监控点在所述业务系统中的位置;
根据所述监控点在所述业务系统中的位置,确定所述业务系统中的发生异常的环节。
结合第一方面,在第一方面的第一种可能的实现方式中,所述根据业务系统的运行数据,生成日志状态信息,包括:
根据所述业务系统各个运行环节上的运行数据,提取各监控点所在环节的线程信息和监控消息,并依照当前时间生成日志状态信息对应的时间信息和日志跟踪号,所述线程信息包括监控点的线程名称,所述监控消息包括:前缀信息和业务监控内容,所述前缀信息用于表示所述日志数据在所述业务系统中的索引,一种日志数据的格式对应一个前缀信息。
结合第一方面,在第一方面的第二种可能的实现方式中,在根据业务系统的运行数据,生成日志状态信息之后,还包括:
将生成的日志状态信息以Key和Value形式存入HBase集群,其中,Key的规则内容包括:计算周期、监控编号、路由列和时间戳;
所述计算周期的设定范围包括:秒级、分钟级或5分钟级,所述监控编号用于表示监控点所在数据库记录的主键编号,所述路由列用于表示对应于监控点的发送日志数据所通过的路由设备,其中,同一种日志数据通过相同的路由设备发送至计算设备,所述时间戳用于表示按照指定规则排序的时间点。
结合第一方面,在第一方面的第三种可能的实现方式中,所述提取对应所述异常业务数据的日志状态信息,包括:
获取所述业务系统的业务类型信息,并确定对应所述业务类型信息预设顺序;
按照所述预设顺序读取所述日志状态信息中的时间信息、线程信息、日志跟踪号和监控消息。
结合第一方面,在第一方面的第四种可能的实现方式中,还包括:
获取对应所述业务系统的配置模板,所述配置模板用于表示各个监控点的配置位置;
根据所述配置模板更新或配置所述业务系统中的监控点。
第二方面,本发明的实施例提供一种系统监控装置,包括:
日志处理模块,用于根据业务系统的运行数据,生成日志状态信息,所述日志状态信息包括:时间信息、线程信息、日志跟踪号和监控消息,所述日志状态信息与所述日志状态信息关联的日志数据对应相同的日志跟踪号,所述监控消息用于记录设置在所述业务系统中的监控点的位置;
监控模块,用于当所述业务系统出现异常业务数据时,提取对应所述异常业务数据的日志状态信息,并确定对应所述异常业务数据的日志状态信息的监控点在所述业务系统中的位置;
定位模块,用于根据所述监控点在所述业务系统中的位置,确定所述业务系统中的发生异常的环节。
结合第二方面,在第二方面的第一种可能的实现方式中,所述日志处理模块,具体用于根据所述业务系统各个运行环节上的运行数据,提取各监控点所在环节的线程信息和监控消息,并依照当前时间生成日志状态信息对应的时间信息和日志跟踪号,所述线程信息包括监控点的线程名称,所述监控消息包括:前缀信息和业务监控内容,所述前缀信息用于表示所述日志数据在所述业务系统中的索引,一种日志数据的格式对应一个前缀信息。
结合第二方面,在第二方面的第二种可能的实现方式中,还包括:存储管理模块,用于在根据业务系统的运行数据,生成日志状态信息之后,将生成的日志状态信息以Key和Value形式存入HBase集群,其中,Key的规则内容包括:计算周期、监控编号、路由列和时间戳;
所述计算周期的设定范围包括:秒级、分钟级或5分钟级,所述监控编号用于表示监控点所在数据库记录的主键编号,所述路由列用于表示对应于监控点的发送日志数据所通过的路由设备,其中,同一种日志数据通过相同的路由设备发送至计算设备,所述时间戳用于表示按照指定规则排序的时间点。
结合第二方面,在第二方面的第三种可能的实现方式中,所述监控模块,具体用于获取所述业务系统的业务类型信息,并确定对应所述业务类型信息预设顺序;并按照所述预设顺序读取所述日志状态信息中的时间信息、线程信息、日志跟踪号和监控消息。
结合第二方面,在第二方面的第四种可能的实现方式中,还包括:配置模块,用于获取对应所述业务系统的配置模板,所述配置模板用于表示各个监控点的配置位置;并根据所述配置模板更新或配置所述业务系统中的监控点。
本发明实施例提供的系统监控方法及装置,根据业务系统的运行数据实时生成相应的日志状态信息,并在业务系统出现异常业务数据时,提取对应异常业务数据的日志状态信息,并依据日志状态信息确定监控点在业务系统中的位置,从而根据监控点在业务系统中的位置,确定业务系统中的发生异常的环节。相对于现有技术中直接分析业务系统的业务日志进行异常排查进行告警的方式,由于日志状态信息的数据量极小且能够快速指向监控点,实现了在基于大数据的业务处理系统中,对发生异常业务数据进行回溯并快速定位异常点,从而提高异常点排查效率并能够及时发出告警信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种系统架构示意图;
图2为本发明实施例提供的另一种系统架构示意图;
图3为本发明实施例提供的系统监控方法的流程示意图;
图4、图5、图6为本发明实施例提供的系统监控装置的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本实施例的执行过程,具体可以运行在一种如图1所示的监控系统中,其中用于业务监控的服务器集群与Storm计算集群向量;并通过Kafka(一种高吞吐量的分布式发布订阅消息系统)集群连接业务系统并进行数据交互。可选的,本实施例中,由运行在业务系统上的日志采集客户端实时采集并通过Kafka集群向业务监控的服务器集群上报运行数据(在本实施例中,日志数据可以理解为运行数据的一部分,或者运行数据与日志数据也可以分别上报),并由用于业务监控的服务器集群执行本实施例提供的方法流程或是运行本实施例提供的装置模块。其中,如图2所示的,用于业务监控的服务器集群中可以包括:Redis集群、MySQL集群、HBase/Hadoop集群和配置展现系统。运维/监控人员可以通过配置展现系统查询用于业务监控的服务器集群中的数据,尤其是日志状态信息和业务系统向用于业务监控的服务器集群上报的数据。具体的,Redis集群用于存储实时数据,比如实时记录的业务系统的运行数据、刷新速率较快的数据;MySQL集群用于存储历史数据,比如:日志状态信息和业务系统的运行数据中需要保留一定时间的数据;HBase/Hadoop集群用于存储历史数据,比如:日志状态信息和业务系统的运行数据中需要保留一定时间的数据;MySQL集群用于存储配置数据,比如:配置模板。
本发明实施例提供一种系统监控方法,如图3所示,包括:
S1、根据业务系统的运行数据,生成日志状态信息。
其中,所述日志状态信息包括:时间信息、线程信息、日志跟踪号和监控消息,与所述日志状态信息关联的日志数据对应相同的日志跟踪号,所述监控消息用于记录设置在所述业务系统中的监控点的位置。
S2、当所述业务系统出现异常业务数据时,提取对应所述异常业务数据的日志状态信息,并确定对应所述异常业务数据的日志状态信息的监控点在所述业务系统中的位置。
其中,可以由业务系统检测到业务异常时,判定出现异常业务数据;或者由用于业务监控的服务器集群实时监控业务系统,并在检测到业务异常时,判定出现异常业务数据。
在本实施例中,异常业务数据可以包括:业务系统在发生业务异常时所记录的日志数据、状态信息等运行数据。在业务系统上报运行数据的过程中,用于业务监控的服务器集群实时生成对应业务系统所上报的运行数据的日志状态信息。
S3、根据所述监控点在所述业务系统中的位置,确定所述业务系统中的发生异常的环节。
在本实施例中,当确定所述业务系统中的发生异常的环节后,用于业务监控的服务器集群可以执行告警流程。其中,告警规则可以基于存储的Key值进行告警检查,告警检查统一使用带有一个变量a的告警表达式:如:a<0.6,1000<a<2000;并以存储的Key确定告警路径,且可以采用模糊匹配的方式,比如:1#1#CMB#*。当实时检查到满足告警表达式后即触发告警。告警频率可以设置间隔时间来调整,如:30分钟内某个监控点只告警一次;或者,可以记录连续满足表达式的次数,次数达到预设值则进行告警;或者,可以记录累计满足表达式的次数,次数达到预设门限则进行告警。
本发明实施例提供的系统监控方法,根据业务系统的运行数据实时生成相应的日志状态信息,并在业务系统出现异常业务数据时,提取对应异常业务数据的日志状态信息,并依据日志状态信息确定监控点在业务系统中的位置,从而根据监控点在业务系统中的位置,确定业务系统中的发生异常的环节。相对于现有技术中直接分析业务系统的业务日志进行异常排查进行告警的方式,由于日志状态信息的数据量极小且能够快速指向监控点,实现了在基于大数据的业务处理系统中,对发生异常业务数据进行回溯并快速定位异常点,从而提高异常点排查效率并能够及时发出告警信息。
在本实施例中,所述根据业务系统的运行数据,生成日志状态信息,包括:
根据所述业务系统各个运行环节上的运行数据,提取各监控点所在环节的线程信息和监控消息,并依照当前时间生成日志状态信息对应的时间信息和日志跟踪号,所述线程信息包括监控点的线程名称,所述监控消息包括:前缀信息和业务监控内容,所述前缀信息用于表示所述日志数据在所述业务系统中的索引,一种日志数据的格式对应一个前缀信息。例如:在本实施例中,在业务系统告知异常后,用于业务监控的服务器集群调用由运行数据生成得到的日志状态信息,对于日志状态信息的格式设计包括如下内容:
日志状态信息的格式:时间|线程名|日志跟踪号|监控消息,样例如下:
2015-07-20 15:12:13,559|Thread-192|TracleCode|prefix=bank{“bankCode”:“CMB”,“bizCode”:“refund”,“respCode”:“success”}
2015-07-20 15:12:16,559|Thread-191|TracleCode|prefix=bank{“bankCode”:“CMB”,“bizCode”:“refund”,“respCode”:“fail”}
2015-07-20 15:12:32,559|Thread-102|TracleCode|prefix=bank{“bankCode”:“CMB”,“bizCode”:“refund”,“respCode”:“success”}
2015-07-20 15:12:45,559|Thread-143|TracleCode|prefix=bank{“bankCode”:“CMB”,“bizCode”:“refund”,“respCode”:“fail”}
其中,时间信息、线程信息、日志跟踪号和监控消息等信息可以存储为日志项,日志项之间通过字符"|"分隔;时间信息记录为【yyyy-MM-ddHH:mm:ss,SSS】,日志时间可以记录在日志状态信息中的第一个位置;线程信息用于表示输出当前日志的线程名称;日志跟踪号,用于与其他业务日志中的日志关联起来,以便异常点的定位。
监控消息具体可以包括:前缀和监控内容(监控内容具体可以采用JSON格式)。其中,前缀可以如样例中的内容【prefix=bank】,其中bank表示日志监控前缀信息,监控消息中的前缀在系统中可以作为唯一索引,一般同一种日志格式的,只需要配置一个监控前缀即可。监控内容可以如样例中的内容:
{“bankCode”:“CMB”,“bizCode”:“refund”,“responseCode”:“fail”}。
在本实施例中,还可以将全量数据以Key和Value形式存入HBase集群,包括:在根据业务系统的运行数据生成日志状态信息之后,将生成的日志状态信息以Key和Value形式存入HBase集群其中,key表示在目前的HBase集群的存储过程中使用的关键字,value表示在目前的HBase集群的存储过程中使用的值。
其中,Key的规则内容包括:计算周期、监控编号、路由列和时间戳。所述计算周期的设定范围包括:秒级、分钟级或5分钟级,例如:如表1所示,Key的规则:计算周期#监控编号#路由列1#路由列2#......+时间戳;计算周期的设定:0是秒级,1是分钟级,5是5分钟级。所述监控编号用于表示监控点所在数据库记录的主键编号,所述路由列用于表示对应于监控点的发送日志数据所通过的路由设备,其中,同一种日志数据通过相同的路由设备发送至计算设备,所述时间戳用于表示按照指定规则排序的时间点。例如:如表1所示,监控编号为监控点所在数据库记录的主键编号;路由列为根据监控点需要,将一类日志发送到同一机器中进行计算;时间戳为当前计算周期的时间,比如5分钟是1-5分钟计算到5,6-10计算到10,比如:12:01,12:02,12:03,12:04,12:05计算值对应的时间戳是12:05,再比如:12:16,12:17,12:18,12:19,12:20计算值对应的时间戳是12:20。
表1
在本实施例中,所述提取对应所述异常业务数据的日志状态信息的具体方式,可以包括:
获取所述业务系统的业务类型信息,并确定对应所述业务类型信息预设顺序。并按照所述预设顺序读取所述日志状态信息中的时间信息、线程信息、日志跟踪号和监控消息。
在本实施例中,日志状态信息的格式可以为:时间|线程名|日志跟踪号|监控消息,用于业务监控的服务器集群可以按照日志状态信息的字符排列顺序依次读取日志状态信息中的时间信息、线程信息、日志跟踪号和监控消息等信息,可以按照预设顺序读取日志状态信息中的时间信息、线程信息、日志跟踪号和监控消息等信息。
其中,预设顺序对应业务系统的业务类型,并将业务类型记录为业务类型信息。例如:业务类型为短时间抢购,则预设顺序中优选读取时间信息;再例如:业务类型为需要占用较多线程进行并行处理的业务,则预设顺序中优选读取线程信息;再例如:业务类型为日志数据量较大的业务,则,则预设顺序中优选读取日志跟踪号;再例如:业务类型为业务环节较多或者较为复杂的业务,则预设顺序中优选读取监控消息。
在本实施例中,针对不同的业务类型,可以在业务系统上线且加载该业务时自动根据配置模板在业务系统中的配置监控点,即本实施例中还可以还包括以下流程:获取对应所述业务系统的配置模板,所述配置模板用于表示各个监控点的配置位置。并根据所述配置模板更新或配置所述业务系统中的监控点。
具体的,日志状态信息基于监控点生成,设置监控点在各个业务系统,每一个业务系统中的各个业务环节可以进一步设置子监控点,以便于用于业务监控的服务器集群根据日志状态信息查找监控点所设置在的环节,从而找到出现异常或是存在问题的环节。
本发明实施例还提供一种系统监控装置,如图4所示,包括:
日志处理模块,用于根据业务系统的运行数据,生成日志状态信息,所述日志状态信息包括:时间信息、线程信息、日志跟踪号和监控消息,所述日志状态信息与所述日志状态信息关联的日志数据对应相同的日志跟踪号,所述监控消息用于记录设置在所述业务系统中的监控点的位置。
监控模块,用于当所述业务系统出现异常业务数据时,提取对应所述异常业务数据的日志状态信息,并确定对应所述异常业务数据的日志状态信息的监控点在所述业务系统中的位置。
定位模块,用于根据所述监控点在所述业务系统中的位置,确定所述业务系统中的发生异常的环节。
在本实施例中,所述日志处理模块,具体用于根据所述业务系统各个运行环节上的运行数据,提取各监控点所在环节的线程信息和监控消息,并依照当前时间生成日志状态信息对应的时间信息和日志跟踪号,所述线程信息包括监控点的线程名称,所述监控消息包括:前缀信息和业务监控内容,所述前缀信息用于表示所述日志数据在所述业务系统中的索引,一种日志数据的格式对应一个前缀信息。
在本实施例中,如图5所示,还包括:存储管理模块,用于在根据业务系统的运行数据,生成日志状态信息之后,将生成的日志状态信息以Key和Value形式存入HBase集群,其中,Key的规则内容包括:计算周期、监控编号、路由列和时间戳。
所述计算周期的设定范围包括:秒级、分钟级或5分钟级,所述监控编号用于表示监控点所在数据库记录的主键编号,所述路由列用于表示对应于监控点的发送日志数据所通过的路由设备,其中,同一种日志数据通过相同的路由设备发送至计算设备,所述时间戳用于表示按照指定规则排序的时间点。
在本实施例中,所述监控模块,具体用于获取所述业务系统的业务类型信息,并确定对应所述业务类型信息预设顺序。并按照所述预设顺序读取所述日志状态信息中的时间信息、线程信息、日志跟踪号和监控消息。
在本实施例中,如图6所示,还包括:配置模块,用于获取对应所述业务系统的配置模板,所述配置模板用于表示各个监控点的配置位置。并根据所述配置模板更新或配置所述业务系统中的监控点。
本发明实施例提供的系统监控装置,根据业务系统的运行数据实时生成相应的日志状态信息,并在业务系统出现异常业务数据时,提取对应异常业务数据的日志状态信息,并依据日志状态信息确定监控点在业务系统中的位置,从而根据监控点在业务系统中的位置,确定业务系统中的发生异常的环节。相对于现有技术中直接分析业务系统的业务日志进行异常排查进行告警的方式,由于日志状态信息的数据量极小且能够快速指向监控点,实现了在基于大数据的业务处理系统中,对发生异常业务数据进行回溯并快速定位异常点,从而提高异常点排查效率并能够及时发出告警信息。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种系统监控方法,其特征在于,包括:
根据业务系统的运行数据,生成日志状态信息,所述日志状态信息包括:时间信息、线程信息、日志跟踪号和监控消息,所述日志状态信息与所述日志状态信息关联的日志数据对应相同的日志跟踪号,所述监控消息用于记录设置在所述业务系统中的监控点的位置;
当所述业务系统出现异常业务数据时,提取对应所述异常业务数据的日志状态信息,并确定对应所述异常业务数据的日志状态信息的监控点在所述业务系统中的位置;
根据所述监控点在所述业务系统中的位置,确定所述业务系统中的发生异常的环节。
2.根据权利要求1所述的方法,其特征在于,所述根据业务系统的运行数据,生成日志状态信息,包括:
根据所述业务系统各个运行环节上的运行数据,提取各监控点所在环节的线程信息和监控消息,并依照当前时间生成日志状态信息对应的时间信息和日志跟踪号,所述线程信息包括监控点的线程名称,所述监控消息包括:前缀信息和业务监控内容,所述前缀信息用于表示所述日志数据在所述业务系统中的索引,一种日志数据的格式对应一个前缀信息。
3.根据权利要求1所述的方法,其特征在于,在根据业务系统的运行数据,生成日志状态信息之后,还包括:
将生成的日志状态信息以Key和Value形式存入HBase集群,其中,Key的规则内容包括:计算周期、监控编号、路由列和时间戳;
所述计算周期的设定范围包括:秒级、分钟级或5分钟级,所述监控编号用于表示监控点所在数据库记录的主键编号,所述路由列用于表示对应于监控点的发送日志数据所通过的路由设备,其中,同一种日志数据通过相同的路由设备发送至计算设备,所述时间戳用于表示按照指定规则排序的时间点。
4.根据权利要求1所述的方法,其特征在于,所述提取对应所述异常业务数据的日志状态信息,包括:
获取所述业务系统的业务类型信息,并确定对应所述业务类型信息预设顺序;
按照所述预设顺序读取所述日志状态信息中的时间信息、线程信息、日志跟踪号和监控消息。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取对应所述业务系统的配置模板,所述配置模板用于表示各个监控点的配置位置;
根据所述配置模板更新或配置所述业务系统中的监控点。
6.一种系统监控装置,其特征在于,包括:
日志处理模块,用于根据业务系统的运行数据,生成日志状态信息,所述日志状态信息包括:时间信息、线程信息、日志跟踪号和监控消息,所述日志状态信息与所述日志状态信息关联的日志数据对应相同的日志跟踪号,所述监控消息用于记录设置在所述业务系统中的监控点的位置;
监控模块,用于当所述业务系统出现异常业务数据时,提取对应所述异常业务数据的日志状态信息,并确定对应所述异常业务数据的日志状态信息的监控点在所述业务系统中的位置;
定位模块,用于根据所述监控点在所述业务系统中的位置,确定所述业务系统中的发生异常的环节。
7.根据权利要求6所述的装置,其特征在于,所述日志处理模块,具体用于根据所述业务系统各个运行环节上的运行数据,提取各监控点所在环节的线程信息和监控消息,并依照当前时间生成日志状态信息对应的时间信息和日志跟踪号,所述线程信息包括监控点的线程名称,所述监控消息包括:前缀信息和业务监控内容,所述前缀信息用于表示所述日志数据在所述业务系统中的索引,一种日志数据的格式对应一个前缀信息。
8.根据权利要求6所述的装置,其特征在于,还包括:存储管理模块,用于在根据业务系统的运行数据,生成日志状态信息之后,将生成的日志状态信息以Key和Value形式存入HBase集群,其中,Key的规则内容包括:计算周期、监控编号、路由列和时间戳;
所述计算周期的设定范围包括:秒级、分钟级或5分钟级,所述监控编号用于表示监控点所在数据库记录的主键编号,所述路由列用于表示对应于监控点的发送日志数据所通过的路由设备,其中,同一种日志数据通过相同的路由设备发送至计算设备,所述时间戳用于表示按照指定规则排序的时间点。
9.根据权利要求6所述的装置,其特征在于,所述监控模块,具体用于获取所述业务系统的业务类型信息,并确定对应所述业务类型信息预设顺序;并按照所述预设顺序读取所述日志状态信息中的时间信息、线程信息、日志跟踪号和监控消息。
10.根据权利要求6所述的装置,其特征在于,还包括:配置模块,用于获取对应所述业务系统的配置模板,所述配置模板用于表示各个监控点的配置位置;并根据所述配置模板更新或配置所述业务系统中的监控点。
CN201610274173.1A 2016-04-28 2016-04-28 一种系统监控方法及装置 Pending CN107332680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610274173.1A CN107332680A (zh) 2016-04-28 2016-04-28 一种系统监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610274173.1A CN107332680A (zh) 2016-04-28 2016-04-28 一种系统监控方法及装置

Publications (1)

Publication Number Publication Date
CN107332680A true CN107332680A (zh) 2017-11-07

Family

ID=60192288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610274173.1A Pending CN107332680A (zh) 2016-04-28 2016-04-28 一种系统监控方法及装置

Country Status (1)

Country Link
CN (1) CN107332680A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197199A (zh) * 2017-12-27 2018-06-22 珠海市君天电子科技有限公司 数据监控方法、装置、电子设备及计算机可读存储介质
CN109034423A (zh) * 2018-08-29 2018-12-18 郑州云海信息技术有限公司 一种故障预警判定的方法、装置、设备及存储介质
CN110442498A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 异常数据节点的定位方法、装置、存储介质及计算机设备
CN110611576A (zh) * 2018-06-14 2019-12-24 亿阳信通股份有限公司 一种数据质量监测方法、装置、设备及存储介质
CN111666178A (zh) * 2019-03-05 2020-09-15 中国环境监测总站 一种安全监控方法及其系统
CN112783745A (zh) * 2021-02-02 2021-05-11 无锡车联天下信息技术有限公司 一种集群数据的监控方法、装置、系统及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080065928A1 (en) * 2006-09-08 2008-03-13 International Business Machines Corporation Technique for supporting finding of location of cause of failure occurrence
JP5102556B2 (ja) * 2007-08-08 2012-12-19 株式会社野村総合研究所 ログ解析支援装置
CN102902764A (zh) * 2012-09-25 2013-01-30 北京奇虎科技有限公司 一种日志记录的方法和装置
CN103049373A (zh) * 2012-11-29 2013-04-17 北京奇虎科技有限公司 一种崩溃的定位方法和装置
CN104123104A (zh) * 2014-08-13 2014-10-29 中国银行股份有限公司 日志控制系统及方法
CN105183609A (zh) * 2015-09-16 2015-12-23 焦点科技股份有限公司 一种应用于软件系统的实时监控系统及方法
CN105468765A (zh) * 2015-12-03 2016-04-06 中国南方电网有限责任公司信息中心 一种多节点web服务异常检测方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080065928A1 (en) * 2006-09-08 2008-03-13 International Business Machines Corporation Technique for supporting finding of location of cause of failure occurrence
JP5102556B2 (ja) * 2007-08-08 2012-12-19 株式会社野村総合研究所 ログ解析支援装置
CN102902764A (zh) * 2012-09-25 2013-01-30 北京奇虎科技有限公司 一种日志记录的方法和装置
CN103049373A (zh) * 2012-11-29 2013-04-17 北京奇虎科技有限公司 一种崩溃的定位方法和装置
CN104123104A (zh) * 2014-08-13 2014-10-29 中国银行股份有限公司 日志控制系统及方法
CN105183609A (zh) * 2015-09-16 2015-12-23 焦点科技股份有限公司 一种应用于软件系统的实时监控系统及方法
CN105468765A (zh) * 2015-12-03 2016-04-06 中国南方电网有限责任公司信息中心 一种多节点web服务异常检测方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197199A (zh) * 2017-12-27 2018-06-22 珠海市君天电子科技有限公司 数据监控方法、装置、电子设备及计算机可读存储介质
CN108197199B (zh) * 2017-12-27 2021-10-29 珠海市君天电子科技有限公司 数据监控方法、装置、电子设备及计算机可读存储介质
CN110611576A (zh) * 2018-06-14 2019-12-24 亿阳信通股份有限公司 一种数据质量监测方法、装置、设备及存储介质
CN110611576B (zh) * 2018-06-14 2023-05-09 亿阳信通股份有限公司 一种数据质量监测方法、装置、设备及存储介质
CN109034423A (zh) * 2018-08-29 2018-12-18 郑州云海信息技术有限公司 一种故障预警判定的方法、装置、设备及存储介质
CN111666178A (zh) * 2019-03-05 2020-09-15 中国环境监测总站 一种安全监控方法及其系统
CN110442498A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 异常数据节点的定位方法、装置、存储介质及计算机设备
CN112783745A (zh) * 2021-02-02 2021-05-11 无锡车联天下信息技术有限公司 一种集群数据的监控方法、装置、系统及存储介质

Similar Documents

Publication Publication Date Title
CN107332680A (zh) 一种系统监控方法及装置
CN104598367B (zh) 数据中心故障事件管理自动化系统及方法
CN107577588A (zh) 一种海量日志数据智能运维系统
DE112018004325T5 (de) Systeme und verfahren für die risikoanalyse
CN108038553A (zh) 轧机设备状态在线监测与诊断系统及监测诊断方法
CN100412993C (zh) 基于状态监测的核电厂智能维护系统
CN106844138A (zh) 运维报警系统及方法
CN109871401A (zh) 一种时间序列异常检测方法及装置
CN112181960B (zh) 一种基于AIOps的智能运维框架系统
US11409962B2 (en) System and method for automated insight curation and alerting
Yan et al. Big-data-driven based intelligent prognostics scheme in industry 4.0 environment
CN109993189A (zh) 一种网络故障预警方法、装置和介质
CN115514619B (zh) 告警收敛方法及系统
CN105743595A (zh) 中短波发射机故障预警方法及装置
Ghankutkar et al. Modelling machine learning for analysing crime news
Mansmann et al. Dynamic visual analytics—facing the real-time challenge
Antonello et al. Association rules extraction for the identification of functional dependencies in complex technical infrastructures
CN117217730A (zh) 电力设备故障识别方法、装置、设备、介质和产品
Manokaran et al. Smart anomaly detection using data-driven techniques in iot edge: a survey
Zhao et al. Design of wireless sensor network middleware for agricultural applications
CN113065580A (zh) 一种基于多信息融合的电厂设备管理方法及系统
Dokic et al. Machine learning using a simple feature for detecting multiple types of events from pmu data
CN205510066U (zh) 中短波发射机故障预警装置
CN114676021A (zh) 作业日志监控方法、装置、计算机设备和存储介质
CN112147974B (zh) 基于化工过程知识自动化的报警根原因诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171107