CN115118575B - 一种监控方法、装置、电子设备及存储介质 - Google Patents

一种监控方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115118575B
CN115118575B CN202210720704.0A CN202210720704A CN115118575B CN 115118575 B CN115118575 B CN 115118575B CN 202210720704 A CN202210720704 A CN 202210720704A CN 115118575 B CN115118575 B CN 115118575B
Authority
CN
China
Prior art keywords
data
target
interaction
event
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210720704.0A
Other languages
English (en)
Other versions
CN115118575A (zh
Inventor
王琛
黄冲
王雷
黄源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qax Technology Group Inc
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qax Technology Group Inc
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qax Technology Group Inc, Secworld Information Technology Beijing Co Ltd filed Critical Qax Technology Group Inc
Priority to CN202210720704.0A priority Critical patent/CN115118575B/zh
Publication of CN115118575A publication Critical patent/CN115118575A/zh
Application granted granted Critical
Publication of CN115118575B publication Critical patent/CN115118575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/0253Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using browsers or web-pages for accessing management information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请提供一种监控方法、装置、电子设备及存储介质,获取目标时间段内目标网络系统上各网络交互事件的统计信息,统计信息包括目标网络系统中对应的网络交互事件在目标时间段内发生的总次数,根据统计信息对用户进行告警提示,使用户可以知晓目标网络系统中的网络交互情况,更有利于及时发现数据丢失情况,对产生数据丢失的位置进行定位。

Description

一种监控方法、装置、电子设备及存储介质
技术领域
本申请涉及监控技术领域,具体而言,涉及一种监控方法、装置、电子设备及存储介质。
背景技术
网络流量表征了单位时间内网络传输的数据量。网络流量是网络运作的重要指标,反映了当前网络的运行状态。随着网络的需求量日益增多,网络数据在传输过程中,容易发生数据丢失现象,网络传输安全性较低。所以,有必要提供一种方案能够对网络系统进行监测,及时进行告警提示。
发明内容
本申请实施例的目的在于提供一种监控方法、装置、电子设备及存储介质,以解决上述技术问题。
为实现上述目的,本申请提供的技术方案包括:
第一方面,本申请提供一种监控方法,所述方法包括:
获取目标时间段内目标网络系统上各网络交互事件的统计信息;所述统计信息包括所述目标网络系统中对应的所述网络交互事件在所述目标时间段内发生的总次数;
根据所述统计信息进行告警提示。
在上述实施方式中,根据获取到的目标时间段内目标网络系统中网络交互事件的统计信息进行告警提示,使用户可以知晓目标网络系统中的网络交互情况。
结合第一方面,在一些可选的实施方式中,所述目标网络系统包括数据发送模块和数据处理模块;所述数据发送模块用于向所述数据处理模块发送数据;所述数据处理模块用于对接收到的数据进行处理;所述网络交互事件包括交互成功事件和交互失败事件中的至少一种;所述交互成功事件包括以下事件中的至少一种:
所述数据发送模块上发生的数据发送成功事件;
所述数据处理模块上发生的数据接收成功事件;
所述数据处理模块上发生的数据处理成功事件;
所述交互失败事件包括以下事件中的至少一种:
所述数据发送模块上发生的数据发送失败事件;
所述数据处理模块上发生的数据处理失败事件。
可理解,本方案适用于目标网络系统包括数据发送模块和数据处理模块的系统,提升了方案的普适性;基于数据发送模块和/或数据处理模块中的交互成功事件和/或交互失败事件对应的统计次数这一维度进行告警提示,流程简单,结果可靠。
结合第一方面,在一些可选的实施方式中,所述目标网络系统还包括数据存储模块,所述数据存储模块用于接收所述数据处理模块发送的处理后的数据,并对接收到的所述处理后的数据进行存储;所述交互成功事件还包括以下事件中的至少一种:
所述数据处理模块上发生的数据发送成功事件;
所述数据存储模块上发生的数据接收成功事件;
所述交互失败事件还包括:所述数据处理模块上发生的数据发送失败事件。
可理解,本方案还适用于目标网络系统包括数据存储模块的系统,进一步提升了方案的普适性;基于数据存储模块中的交互成功事件和/或交互失败事件对应的统计次数进行告警提示,进一步提升了告警提示的可靠性。
结合第一方面,在一些可选的实施方式中,所述数据发送模块为由多个采集设备构成的采集设备集群;每一所述采集设备用于采集数据,并将采集到的数据发送给所述数据处理模块。
可理解,本方案还适用于数据发送模块为采集设备集群的场景,可以对采集设备集群采集到的数据的流转过程进行监控。
结合第一方面,在一些可选的实施方式中,所述根据所述统计信息进行告警提示,包括:
展示所述网络交互事件对应的所述统计信息;
和/或,
根据所述统计信息判断所述目标网络系统在所述目标时间段内是否存在异常,在判定所述目标网络系统在所述目标时间段内存在异常时,进行告警提示。
在上述实施方式中,一方面,可以直接将统计信息展示给用户,使用户可以直观的获取到网络交互事件的具体情况,更有利于及时发现数据丢失情况,对产生数据丢失的位置进行定位;另一方面,可以根据该统计信息判断目标网络系统在目标时间段内是否存在异常,并在确定存在异常时,进行告警提示,所以此时,无需人工对统计信息进行分析,减少了人力成本。
结合第一方面,在一些可选的实施方式中,在所述网络交互事件包括所述交互失败事件时,所述根据所述统计信息判断所述目标网络系统在所述目标时间段内是否存在异常,包括:
将所述交互失败事件对应的所述总次数与第一目标值进行比较;
在所述总次数大于等于所述第一目标值时,判定所述目标网络系统在所述目标时间段内存在异常。
通常来说,网络中一旦出现交互失败事件,往往表征对应位置存在故障,在上述实施方式中,可以根据交互失败事件发生的总次数检测目标网络系统是否存在异常,提升了异常检测的准确性和可靠性。
结合第一方面,在一些可选的实施方式中,所述进行告警提示,包括:
生成第一告警提示信息;所述第一告警提示信息用于指示:在所述目标时间段内,发生所述交互失败事件的位置点上存在网络异常;
根据所述第一告警提示信息进行告警提示。
在上述实施方式中,可以自动化定位故障位置点,实现了对目标网络系统的全面监控。
结合第一方面,在一些可选的实施方式中,在所述网络交互事件包括至少2个所述交互成功事件时,所述根据所述统计信息判断所述目标网络系统在所述目标时间段内是否存在异常,包括:
确定各所述交互成功事件对应的所述总次数之间的两两差值的绝对值;
当至少一个所述两两差值的绝对值大于等于第二目标值时,判定所述目标网络系统在所述目标时间段内存在异常。
可理解,数据流转正常的延迟会导致各流程数据存在差异,在上述实施方式中,当总次数的两两差值的绝对值大于等于第二目标值时,说明目标网络系统中数据延迟的时间大于数据正常流转的延迟时间,此时判定目标网络系统在目标时间段内存在异常,判定结果准确可靠。
结合第一方面,在一些可选的实施方式中,所述进行告警提示,包括:
生成第二告警提示信息;所述第二告警提示信息用于指示:在所述目标时间段内,两个目标位置点之间存在网络异常;所述两个目标位置点为对应的所述两两差值的绝对值大于等于所述第二目标值的两个位置点;
根据所述第二告警提示信息进行告警提示。
在上述实施方式中,可以自动化定位故障位置区间,实现了对目标网络系统的全面监控。
第二方面,本申请提供一种监控装置,包括:
获取模块,用于获取目标时间段内目标网络系统上各网络交互事件的统计信息;所述统计信息包括所述目标网络系统中对应的所述网络交互事件在所述目标时间段内发生的总次数;
告警提示模块,用于根据所述统计信息进行告警提示。
第三方面,本申请提供一种电子设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现上述任意一种方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任意一种方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一中监控方法的流程示意图;
图2为本申请实施例一中目标网络系统的结构示意图;
图3为本申请实施例一中对目标网络系统进行监控过程中的数据流向图;
图4为本申请实施例一中通过WEB页面展示统计信息的示意图;
图5为本申请实施例二中监控装置的结构示意图;
图6为本申请实施例三中电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在本发明的描述中,需要理解的是,步骤前的数字标号并不表示执行步骤的前后顺序,仅用于方便描述本发明及区别每一步骤,因此不能理解为对本发明的限制。
下面将提供多个实施例,来具体介绍监控方法、装置、电子设备及存储介质。
实施例一:
在大流量、大规模集群部署场景下,容易出现数据丢失不易发现,发现数据丢失后不易定位的问题,鉴于此,本申请实施例提供一种监控方法。本申请实施例提供的监控方法可以应用在电子设备中,该电子设备可以是服务器,比如可以是云端服务器、网络服务器、数据库服务器等。该电子设备也可以是终端,比如可以是个人电脑、笔记本电脑、平板电脑、手机等。
请参见图1所示,本申请实施例提供的监控方法可以包括如下步骤:
S11:获取目标时间段内目标网络系统上各网络交互事件的统计信息;该统计信息包括目标网络系统中对应的网络交互事件在目标时间段内发生的总次数。
本申请实施例中的目标时间段可以由用户根据应用场景灵活设置,比如可以设置为每天的0点-21点这个时间段。也即,可以统计每天0点-21点这个时间段内目标网络系统上网络交互事件发生的次数,根据该信息在每天21点对用户进行告警提示。
本申请实施例中的目标网络系统是指可以发生数据交互的网络系统,应用中,可以在该目标网络系统增设监测统计模块和统计信息存储模块,监测统计模块用于对目标网络系统上网络交互事件发生的次数进行监测,生成统计信息,该统计信息包括对应的网络交互事件在监测时间段内发送的总次数,统计信息存储模块用于存储统计信息。
对于步骤S11,在第一种示例性的实施方式中,可以直接从本地提取目标时间段内目标网络系统上各网络交互事件的统计信息。所以在本实施方式中,在步骤S11之前,电子设备可以定时或不定时地从目标网络系统中的统计信息存储模块中获取统计信息,比如可以每隔5分钟就获取一次统计信息,然后将该统计信息存储在本地,以便于后续在需要对用户进行告警提示时,可以直接从本地调取统计信息对用户进行告警提示,可以提升告警提示的效率。在第二种示例性的实施方式,可以在需要进行告警提示的时候,再从目标网络系统中获取统计信息。
本申请实施例中的网络交互事件是指目标网络系统中为进行网络数据交互而发生的事件。具体的,网络交互事件包括交互成功事件和交互失败事件中的至少一种。交互成功事件为数据交互操作成功实现的事件,交互失败事件为数据交互操作未成功实现的事件。数据交互操作包括但不限于是数据发送操作、数据接收操作和数据处理操作中的至少一种。
根据交互成功事件和/或交互失败事件在一个时间段内发生的总次数,可以分析出目标网络系统在该时间段内数据流转的情况。比如,当某一个时间段内交互失败事件发生的总次数大于0,则可以认为发生该交互失败事件的位置点处存在异常。
当目标网络系统包括数据发送模块和数据处理模块时;其中,数据发送模块用于向数据处理模块发送数据,数据处理模块用于对接收到的数据进行处理,此时,交互成功事件包括以下事件中的至少一种:
数据发送模块上发生的数据发送成功事件;
数据处理模块上发生的数据接收成功事件;
数据处理模块上发生的数据处理成功事件;
交互失败事件包括以下事件中的至少一种:
数据发送模块上发生的数据发送失败事件;
数据处理模块上发生的数据处理失败事件。
示例性的,目标网络系统还可以包括数据存储模块,数据存储模块用于接收数据处理模块发送的处理后的数据,并对接收到的处理后的数据进行存储;此时,交互成功事件还可以包括以下事件中的至少一种:
数据处理模块上发生的数据发送成功事件;
数据存储模块上发生的数据接收成功事件;
交互失败事件还可以包括:数据处理模块上发生的数据发送失败事件。
本申请实施例中的数据发送模块、数据处理模块以及数据存储模块可以集成在同一硬件设备上,比如可以集成在一个服务器中,也可以各自独立设置,各模块分开部署在不同的硬件设备中。
示例性的,数据发送模块可以为采集设备,或者是由多个采集设备构成的采集设备集群;每一采集设备用于采集数据,并将采集到的数据发送给数据处理模块。本申请实施例中的采集设备可以是传感器,该采集设备集群为传感器集群,该传感器可以采集网络流量日志数据,然后将该网络流量日志数据发送给数据处理模块。
S12:根据统计信息进行告警提示。
对于步骤S12,在一种可选的实施方式中,可以向用户展示各网络交互事件对应的统计信息,以便于用户根据该统计信息分析目标网络系统中是否存在异常。在一些示例中,还可以根据用户下发的指令,聚合用户选择的统计信息,得到目标时间段内对应网络交互事件的汇总结果,并将该汇总结果展示给用户。
在另一种可选的实施方式中,可以由电子设备根据统计信息对目标网络系统进行异常检测,具体的,可以根据统计信息判断目标网络系统在目标时间段内是否存在异常,在判定目标网络系统在目标时间段内存在异常时,进行告警提示。
当然,上述两种实施方式可以同时实施,这样用户不仅可以直接获取到异常检测结果,还可以掌握具体各网络交互事件各自分别对应的统计信息。
下面,针对根据统计信息判断目标网络系统在目标时间段内是否存在异常,进行具体的介绍。
在一种示例性的实施方式中,在网络交互事件包括交互失败事件时,根据统计信息判断目标网络系统在目标时间段内是否存在异常,包括:将交互失败事件在目标时间段内发生的总次数与第一目标值进行比较;在该总次数大于等于第一目标值时,判定目标网络系统在目标时间段内存在异常。
本申请实施例中的第一目标值可以由开发人员灵活设置,比如,可以设置为0。可以理解的是,也可以对各交互失败事件预先设置各自对应的第一目标值。
在本实施方式中,当交互失败事件在目标时间段内发生的总次数大于等于第一目标值时,可以生成第一告警提示信息,并根据该第一告警提示信息进行告警提示。第一告警提示信息用于指示:在目标时间段内,发生该交互失败事件的位置点上存在网络异常。
在另外一种示例性的实施方式中,在网络交互事件包括至少2个交互成功事件时,根据统计信息判断目标网络系统在目标时间段内是否存在异常,包括:确定各交互成功事件对应的总次数之间的两两差值的绝对值;当至少一个所述两两差值的绝对值大于等于第二目标值时,判定目标网络系统在目标时间段内存在异常。
在本实施方式中,当至少一个两两差值的绝对值大于等于第二目标值时,可以生成第二告警提示信息,根据第二告警提示信息进行告警提示。其中,第二告警提示信息用于指示:在目标时间段内,两个目标位置点之间存在网络异常;两个目标位置点为对应的两两差值的绝对值大于等于第二目标值的两个位置点。
应当说明的是,本申请实施例中的第二目标值可以由开发人员灵活设置,其可以是开发人员设置的一个固定的值。当然,第二目标值也可以是根据两两差值的绝对值对应的总次数中的较大值和预设的百分比进行计算得到的值。为便于理解,下面结合一个具体的示例进行说明。
比如,可以确定第一总次数和第二总次数之间的两两差值的绝对值,这里的第一总次数可以为数据发送模块上的数据发送成功事件在目标时间段内的发生总次数,这里的第二总次数可以为数据处理模块上的数据接收成功事件在目标时间段内的发生总次数。由于数据发送模块是向数据处理模块发送数据,所以这里的第一总次数必然大于第二总次数,所以根据第一总次数和预设的百分比确定第二目标值。预设的百分比可以由开发人员灵活设置,比如,可以设置为1%、2%。第一总次数和第二总次数之间的两两差值的绝对值大于等于第二目标值,说明数据发送模块和数据处理模块之间大概率出现了数据丢失情况。
在大流量、大规模集群部署场景下,容易出现数据丢失不易发现,发现数据丢失后不易定位的问题,通过本申请实施例提供的技术方案,可以很好的解决该问题。下面结合具体的示例进行说明。
本示例中,目标网络系统包括数据发送模块、数据处理模块和数据存储模块为例。本示例中的监控方法可以运用于分析平台,该分析平台可以搭载在服务器上。
请参见图2所示,本示例中的数据发送模块为多个传感器构成的传感器集群。数据处理模块为包含有NOAH集群的数据处理集群,NOAH集群搭载在第一服务器中。应当说明的是,本示例提供的监控方法中的具体步骤可以由上述第一服务器执行。也即,分析平台可以搭载在该第一服务器上。本示例中的数据存储模块为ES集群,ES集群可以搭载在第二服务器中。应当说明的是,在其他的一些实施例中,数据处理模块和数据存储模块可以集成在一个电子设备中。
本示例中的传感器集群用于采集数据,比如可以采集网络流量日志,然后将采集到的网络流量日志发送给NOAH集群,具体的,可以通过消息缓存队列将网络流量日志发送给NOAH集群,本示例中的消息缓存队列可以是KAFKA消息队列,NOAH集群对接收到的数据进行解析,然后将解析后的数据写入ES集群进行存储。
请参见图3,图3为本示例提供的大规模集群部署场景下的数据流向图。
本示例中的传感器集群中记录的统计信息包括“数据发送成功次数”和“数据发送失败次数”。分析平台可以通过SNMP协议到传感器集群中拉取数据得到传感器集群中记录的统计信息。具体的,可以通过SNMP协议向传感器集群发送请求,查询指定OID的数据,即“数据发送成功次数”和“数据发送失败次数”以及相关设备信息(ip和序列号等);其中,传感器关于此数据可以每1分钟更新一次,分析平台采集进程的采集间隔可以设置为5分钟,也即,分析平台每隔5分钟从传感器集群中查询一次“数据发送成功次数”和“数据发送失败次数”。
NOAH集群记录的统计信息包括“获取日志次数”(KAFKA数据接收数)、“数据解析成功次数”、“数据解析失败次数”、“向ES写数据的次数”,该统计信息可以存储在NOAH集群的主节点数据表中,分析平台可以通过SQL语句读取该数据表中的数据,得到NOAH集群中记录的统计信息。具体的,NOAH集群的数据监控功能可以将数据从接入、解析到入库各个的统计次数存放在NOAH集群的对应的数据监控表中,通过SQL语句查询数据监控表中的统计信息。NOAH集群的数据监控功能的采集时间间隔可以设置为1分钟,分析平台采集进程的采集间隔可以设置为5分钟,也即,分析平台每隔5分钟从NOAH集群中查询一次“获取日志次数”、“数据解析成功次数”、“数据解析失败次数”、“向ES写数据的次数”。
ES集群记录的统计信息包括“数据成功写入ES次数”,分析平台可以通过定期轮询的方式,读取ES集群中记录的统计信息。具体的,分析平台可以通过远程连接ES集群,采用DSL语句查询对应索引的统计信息;ES集群的数据监控功能的采集时间间隔可以设置为1分钟,分析平台采集进程的采集间隔可以设置为5分钟,也即,分析平台每隔5分钟从ES集群中查询一次“数据成功写入ES次数”。
可以理解的是,分析平台可以从目标网络系统的各集群中读取对应的统计信息,并先将统计信息临时存储在KAFKA消息队列中,以便于统计信息的外发,最终可以将各统计信息存储至数据库中,比如可以存储在Postgresql数据库中,以防止统计信息丢失。在进行告警检测的时候,分析平台可以从KAFKA消息队列和Postgresql数据库中读取目标时间段内的统计信息,并根据获取的统计信息进行告警提示。
应当说明的是,在需要将KAFKA消息队列中的统计信息发送给其他外部设备时,可以通过syslog外发统计信息,或者直接通过KAFKA外发统计信息。
本示例中的分析平台可以从Postgresql数据库中读取目标时间段内的统计信息,并通过WEB页面的形式展示给用户。请参见图4所示,可以根据用户的选择展示对应的统计信息,比如,可以根据用户选择的时间段,聚合该时间段中的计数信息(统计信息),比如,可以数据源聚合展示所选时间段内的计数信息,比如,可以分别展示各流程的计数,也即展示各网络交互事件各自对应的统计信息。
下面,对进行根据统计信息进行告警提示的过程进行介绍。
开发人员可以根据数据流转正常的延迟导致的各流程数据差异,结合实际情况,配置异常阈值,当这些差异超过了对应的异常阈值则确定目标网络系统在目标时间段内出现了数据异常。
这类异常可以包括:
目标时间段内“传感器数据发送成功次数”与“KAFKA数据接收数”之间的差异超过异常阈值,表示传感器到KAFKA集群大概率出现异常。
目标时间段内“KAFKA数据接收次数”与“向ES写数据的次数”之间的差异超过异常阈值,表示NOAH集群大概率出现异常。
目标时间段内“传感器数据发送成功次数”与“数据成功写入ES次数”之间的差异超过异常阈值,表示传感器集群与ES集群之间大概率出现数据丢失情况。
针对上述3类异常,均可独立配置时间范围,比如,目标时间段可以配置为1天-7天,异常阈值可以由开发人员灵活设置。
为便于理解,这里结合具体的示例进行说明。
假设获取到目标时间段内,传感器数据发送成功次数为x1,NOAH集群成功接收数据次数为x2,预设的异常阈值为差异比例y%,如果|x1-x2|/x1>x%,则说明传感器集群与NOAH集群之间存在数据丢失,此时可以生成告警提示信息,对用户进行告警提示。
假设获取到目标时间段内,NOAH集群成功接收数据次数为y1,NOAH集群向ES写数据的次数为y2,预设的异常阈值为差异比例y%,如果|y1-y2|/y1>y%则说明NOAH集群与ES集群之间存在数据丢失,此时可以生成告警提示信息,对用户进行告警提示。
假设获取到目标时间段内,传感器数据发送成功次数为z1,数据成功写入ES次数为z2,预设的异常阈值为差异比例为z%,如果|z1-z2|/z1>z%则说明传感器集群与ES集群之间存在数据丢失,此时可以生成告警提示信息,对用户进行告警提示。
本示例提供的监控方法可以对大流量、大规模集群中的数据进行主动监控,在发现数据丢失后可以主动预警,并可以对数据丢失的位置进行定位。
实施例二:
本申请实施例提供一种监控装置,请参见图5所示,包括:
获取模块501,用于获取目标时间段内目标网络系统上各网络交互事件的统计信息;统计信息包括目标网络系统中对应的网络交互事件在所述目标时间段内发生的总次数;
告警提示模块502,用于根据统计信息进行告警提示。
本申请实施例中的网络交互事件包括交互成功事件和交互失败事件中的至少一种。
在示例性的实施例中,目标网络系统包括数据发送模块和数据处理模块;其中,数据发送模块用于向数据处理模块发送数据,数据处理模块用于对接收到的数据进行处理,交互成功事件包括以下事件中的至少一种:
数据发送模块上发生的数据发送成功事件;
数据处理模块上发生的数据接收成功事件;
数据处理模块上发生的数据处理成功事件;
交互失败事件包括以下事件中的至少一种:
数据发送模块上发生的数据发送失败事件;
数据处理模块上发生的数据处理失败事件。
在示例性的实施例中,目标网络系统还可以包括数据存储模块,数据存储模块用于接收数据处理模块发送的处理后的数据,并对接收到的处理后的数据进行存储;交互成功事件还可以包括以下事件中的至少一种:
数据处理模块上发生的数据发送成功事件;
数据存储模块上发生的数据接收成功事件;
交互失败事件还可以包括:数据处理模块上发生的数据发送失败事件。
在示例性的实施例中,数据发送模块可以为采集设备,或者是由多个采集设备构成的采集设备集群;每一采集设备用于采集数据,并将采集到的数据发送给数据处理模块。本申请实施例中的采集设备可以是传感器,该传感器可以采集网络流量日志数据,然后将该网络流量日志数据发送给数据处理模块。
在示例性的实施例中,告警提示模块502用于向用户展示各网络交互事件对应的统计信息,以便于用户根据该统计信息分析目标网络系统中是否存在异常。
在示例性的实施例中,告警提示模块502用于根据统计信息对目标网络系统进行异常检测,具体的,可以根据统计信息判断目标网络系统在目标时间段内是否存在异常,在判定目标网络系统在目标时间段内存在异常时,进行告警提示。
在示例性的实施例中,在网络交互事件包括所述交互失败事件时,告警提示模块502用于将所述交互失败事件对应的所述总次数与第一目标值进行比较;在所述总次数大于等于所述第一目标值时,判定目标网络系统在目标时间段内存在异常。
在示例性的实施例中,告警提示模块502用于生成第一告警提示信息,根据第一告警提示信息进行告警提示;第一告警提示信息用于指示:在目标时间段内,发生交互失败事件的位置点上存在网络异常。
在示例性的实施例中,在网络交互事件包括至少2个交互成功事件时,告警提示模块502用于确定各交互成功事件对应的总次数之间的两两差值的绝对值,当至少一个两两差值的绝对值大于等于第二目标值时,判定目标网络系统在目标时间段内存在异常。
在示例性的实施例中,告警提示模块502用于生成第二告警提示信息,根据第二告警提示信息进行告警提示;第二告警提示信息用于指示:在目标时间段内,两个目标位置点之间存在网络异常;两个目标位置点为对应的两两差值的绝对值大于等于第二目标值的两个位置点。
需要理解的是,出于描述简洁的考量,部分实施例一中描述过的内容在本实施例中不再赘述。
实施例三:
基于同一发明构思,本申请实施例提供一种电子设备,请参见图5所示,包括处理器601和存储器602,所述存储器602中存储有计算机程序,所述处理器601执行所述计算机程序,以实现上述实施例一中方法的步骤,在此不再赘述。
可以理解,图6所示的结构仅为示意,设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
处理器601可以是一种集成电路芯片,具有信号处理能力。上述处理器601可以是通用处理器,包括中央处理器(CPU)、网络处理器(NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。
存储器602可以包括但不限于随机存取存储器(RAM),只读存储器(ROM),可编程只读存储器(PROM),可擦除只读存储器(EPROM),电可擦除只读存储器(EEPROM)等。
本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、U盘、安全数码(SD)卡、多媒体(MMC)卡等,在该计算机可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述各实施例中方法的各步骤,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种监控方法,其特征在于,所述方法包括:
获取目标时间段内目标网络系统上各网络交互事件的统计信息;所述统计信息包括所述目标网络系统中对应的所述网络交互事件在所述目标时间段内发生的总次数;所述网络交互事件包括交互成功事件和交互失败事件;
根据所述统计信息进行告警提示;所述告警提示包括第一告警提示信息和/或第二告警提示信息;所述第一告警提示信息用于指示:在所述目标时间段内,发生交互失败事件的位置点上存在网络异常;所述第二告警提示信息用于指示:在所述目标时间段内,两个目标位置点之间存在网络异常;
所述目标网络系统包括数据发送模块和数据处理模块;所述数据发送模块用于向所述数据处理模块发送数据;所述数据处理模块用于对接收到的数据进行处理;所述交互成功事件包括以下事件中的至少一种:
所述数据发送模块上发生的数据发送成功事件;
所述数据处理模块上发生的数据接收成功事件;
所述数据处理模块上发生的数据处理成功事件;
所述交互失败事件包括以下事件中的至少一种:
所述数据发送模块上发生的数据发送失败事件;
所述数据处理模块上发生的数据处理失败事件;
所述目标网络系统还包括数据存储模块,所述数据存储模块用于接收所述数据处理模块发送的处理后的数据,并对接收到的所述处理后的数据进行存储;所述交互成功事件还包括以下事件中的至少一种:
所述数据处理模块上发生的数据发送成功事件;
所述数据存储模块上发生的数据接收成功事件;
所述交互失败事件还包括:所述数据处理模块上发生的数据发送失败事件。
2.如权利要求1所述的监控方法,其特征在于,所述数据发送模块为由多个采集设备构成的采集设备集群;每一所述采集设备用于采集数据,并将采集到的数据发送给所述数据处理模块。
3.如权利要求1或2所述的监控方法,其特征在于,所述根据所述统计信息进行告警提示,包括:
展示所述网络交互事件对应的所述统计信息;
和/或,
根据所述统计信息判断所述目标网络系统在所述目标时间段内是否存在异常,在判定所述目标网络系统在所述目标时间段内存在异常时,进行告警提示。
4.如权利要求3所述的监控方法,其特征在于,在所述网络交互事件包括所述交互失败事件时,所述根据所述统计信息判断所述目标网络系统在所述目标时间段内是否存在异常,包括:
将所述交互失败事件对应的所述总次数与第一目标值进行比较;
在所述总次数大于等于所述第一目标值时,判定所述目标网络系统在所述目标时间段内存在异常。
5.如权利要求4所述的监控方法,其特征在于,所述进行告警提示,包括:
生成所述第一告警提示信息;
根据所述第一告警提示信息进行告警提示。
6.如权利要求3所述的监控方法,其特征在于,在所述网络交互事件包括至少2个所述交互成功事件时,所述根据所述统计信息判断所述目标网络系统在所述目标时间段内是否存在异常,包括:
确定各所述交互成功事件对应的所述总次数之间的两两差值的绝对值;
当至少一个所述两两差值的绝对值大于等于第二目标值时,判定所述目标网络系统在所述目标时间段内存在异常。
7.如权利要求6所述的监控方法,其特征在于,所述进行告警提示,包括:
生成所述第二告警提示信息;所述第二告警提示信息所指示的所述两个目标位置点为对应的所述两两差值的绝对值大于等于所述第二目标值的两个位置点;
根据所述第二告警提示信息进行告警提示。
8.一种监控装置,其特征在于,包括:
获取模块,用于获取目标时间段内目标网络系统上各网络交互事件的统计信息;所述统计信息包括所述目标网络系统中对应的所述网络交互事件在所述目标时间段内发生的总次数;所述网络交互事件包括交互成功事件和交互失败事件;
告警提示模块,用于根据所述统计信息进行告警提示;所述告警提示包括第一告警提示信息和/或第二告警提示信息;所述第一告警提示信息用于指示:在所述目标时间段内,发生交互失败事件的位置点上存在网络异常;所述第二告警提示信息用于指示:在所述目标时间段内,两个目标位置点之间存在网络异常;
所述目标网络系统包括数据发送模块和数据处理模块;所述数据发送模块用于向所述数据处理模块发送数据;所述数据处理模块用于对接收到的数据进行处理;所述目标网络系统还包括数据存储模块,所述数据存储模块用于接收所述数据处理模块发送的处理后的数据,并对接收到的所述处理后的数据进行存储;
所述交互成功事件包括以下事件中的至少一种:
所述数据发送模块上发生的数据发送成功事件;
所述数据处理模块上发生的数据接收成功事件;
所述数据处理模块上发生的数据处理成功事件;
所述数据处理模块上发生的数据发送成功事件;
所述数据存储模块上发生的数据接收成功事件;
所述交互失败事件包括以下事件中的至少一种:
所述数据发送模块上发生的数据发送失败事件;
所述数据处理模块上发生的数据处理失败事件;
所述数据处理模块上发生的数据发送失败事件。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现如权利要求1-7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,以实现如权利要求1-7中任意一项所述的方法。
CN202210720704.0A 2022-06-23 2022-06-23 一种监控方法、装置、电子设备及存储介质 Active CN115118575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210720704.0A CN115118575B (zh) 2022-06-23 2022-06-23 一种监控方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210720704.0A CN115118575B (zh) 2022-06-23 2022-06-23 一种监控方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115118575A CN115118575A (zh) 2022-09-27
CN115118575B true CN115118575B (zh) 2024-05-03

Family

ID=83328183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210720704.0A Active CN115118575B (zh) 2022-06-23 2022-06-23 一种监控方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115118575B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101426215A (zh) * 2007-11-02 2009-05-06 株式会社东芝 用于识别故障的通信装置和方法
CN101800675A (zh) * 2010-02-25 2010-08-11 华为技术有限公司 故障监控方法、监控设备及通信系统
CN102905291A (zh) * 2012-09-06 2013-01-30 大唐移动通信设备有限公司 一种提示网络优化的方法和网络优化服务器
CN104284356A (zh) * 2014-10-13 2015-01-14 大唐移动通信设备有限公司 一种网络质量的判断方法和系统
CN106484592A (zh) * 2016-09-28 2017-03-08 北京奇虎科技有限公司 一种异常检测方法和装置
WO2017114220A1 (zh) * 2015-12-30 2017-07-06 华为技术有限公司 一种用户终端数量的监控方法及相关设备
CN107153593A (zh) * 2016-03-02 2017-09-12 阿里巴巴集团控股有限公司 一种互联网业务监控阈值的确定方法及装置
CN109450691A (zh) * 2018-11-20 2019-03-08 深圳前海微众银行股份有限公司 服务网关监控方法、设备及计算机可读存储介质
CN110888780A (zh) * 2019-11-19 2020-03-17 泰康保险集团股份有限公司 应用监控方法、装置、设备及存储介质
CN110971485A (zh) * 2019-11-19 2020-04-07 网联清算有限公司 业务指标的监控系统及方法
CN111176866A (zh) * 2020-01-03 2020-05-19 精硕科技(北京)股份有限公司 数据交互方法和电子设备
WO2021098569A1 (zh) * 2019-11-18 2021-05-27 大唐移动通信设备有限公司 信息上报、处理方法、终端、网络侧设备及核心网设备
CN113282464A (zh) * 2021-06-11 2021-08-20 中国农业银行股份有限公司 日志监控方法及系统
WO2021262136A1 (en) * 2020-06-22 2021-12-30 Hewlett-Packard Development Company, L.P. Monitoring an embedded system

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101426215A (zh) * 2007-11-02 2009-05-06 株式会社东芝 用于识别故障的通信装置和方法
CN101800675A (zh) * 2010-02-25 2010-08-11 华为技术有限公司 故障监控方法、监控设备及通信系统
CN102905291A (zh) * 2012-09-06 2013-01-30 大唐移动通信设备有限公司 一种提示网络优化的方法和网络优化服务器
CN104284356A (zh) * 2014-10-13 2015-01-14 大唐移动通信设备有限公司 一种网络质量的判断方法和系统
WO2017114220A1 (zh) * 2015-12-30 2017-07-06 华为技术有限公司 一种用户终端数量的监控方法及相关设备
CN107153593A (zh) * 2016-03-02 2017-09-12 阿里巴巴集团控股有限公司 一种互联网业务监控阈值的确定方法及装置
CN106484592A (zh) * 2016-09-28 2017-03-08 北京奇虎科技有限公司 一种异常检测方法和装置
CN109450691A (zh) * 2018-11-20 2019-03-08 深圳前海微众银行股份有限公司 服务网关监控方法、设备及计算机可读存储介质
WO2021098569A1 (zh) * 2019-11-18 2021-05-27 大唐移动通信设备有限公司 信息上报、处理方法、终端、网络侧设备及核心网设备
CN110888780A (zh) * 2019-11-19 2020-03-17 泰康保险集团股份有限公司 应用监控方法、装置、设备及存储介质
CN110971485A (zh) * 2019-11-19 2020-04-07 网联清算有限公司 业务指标的监控系统及方法
CN111176866A (zh) * 2020-01-03 2020-05-19 精硕科技(北京)股份有限公司 数据交互方法和电子设备
WO2021262136A1 (en) * 2020-06-22 2021-12-30 Hewlett-Packard Development Company, L.P. Monitoring an embedded system
CN113282464A (zh) * 2021-06-11 2021-08-20 中国农业银行股份有限公司 日志监控方法及系统

Also Published As

Publication number Publication date
CN115118575A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN110224858B (zh) 基于日志的告警方法及相关装置
CN110888783A (zh) 微服务系统的监测方法、装置以及电子设备
CN112631913B (zh) 应用程序的运行故障监控方法、装置、设备和存储介质
CN108965049B (zh) 提供集群异常解决方案的方法、设备、系统及存储介质
CN112395156A (zh) 故障的告警方法和装置、存储介质和电子设备
CN112698915A (zh) 多集群统一监控告警方法、系统、设备及存储介质
CN114721912B (zh) 一种数据分析方法、装置、设备及介质
CN112087462A (zh) 一种工控系统的漏洞检测方法和装置
CN114124655A (zh) 网络监控方法、系统、装置、计算机设备和存储介质
CN109905262A (zh) 一种cdn设备服务的监控系统及监控方法
CN102609350A (zh) 一种服务器内存故障报警方法
CN111130944B (zh) 系统监控方法及系统
CN106385343B (zh) 一种分布式系统下监控客户端的方法及装置、分布式系统
CN113381884B (zh) 用于监控告警系统的全链路监控方法及装置
CN113342608B (zh) 流式计算引擎任务的监控方法及装置
CN102932194B (zh) 基于贝叶斯方法的互联网应用服务监控系统及方法
CN115118575B (zh) 一种监控方法、装置、电子设备及存储介质
CN110633165B (zh) 故障处理方法、装置、系统服务器及计算机可读存储介质
CN111831515A (zh) 一种应用系统运行状态监控系统及其监控方法
CN110058979A (zh) 一种温度读取失败故障的监控方法、bmc及存储介质
CN114610560B (zh) 系统异常监控方法、装置和存储介质
CN112416731B (zh) 应用于区块链系统的稳定性监测方法及装置
CN114996080A (zh) 数据处理方法、装置、设备及存储介质
CN113760669A (zh) 问题数据的告警方法及装置、电子设备、存储介质
CN108829563B (zh) 一种告警方法和告警装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant