CN117135091A - 一种数据中心dci监控告警方法、系统及计算装置 - Google Patents

一种数据中心dci监控告警方法、系统及计算装置 Download PDF

Info

Publication number
CN117135091A
CN117135091A CN202311166226.4A CN202311166226A CN117135091A CN 117135091 A CN117135091 A CN 117135091A CN 202311166226 A CN202311166226 A CN 202311166226A CN 117135091 A CN117135091 A CN 117135091A
Authority
CN
China
Prior art keywords
data
data link
link
bandwidth
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311166226.4A
Other languages
English (en)
Inventor
陈康壮
蔡丹丽
谭长华
车科谋
彭韧辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Cloud Base Technology Co ltd
Original Assignee
Guangdong Cloud Base Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Cloud Base Technology Co ltd filed Critical Guangdong Cloud Base Technology Co ltd
Priority to CN202311166226.4A priority Critical patent/CN117135091A/zh
Publication of CN117135091A publication Critical patent/CN117135091A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0894Packet rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种数据中心DCI监控告警方法、系统及计算装置,通过采集数据中心所有数据链路的吞吐量簇,并依据吞吐量簇计算每条数据链路的流量和延迟量,获取每条数据链路的带宽,能够有效依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率,从而有效对所有数据链路进行监控,解决了一些高利用率的链路在使用过程中出现故障或负载过高而无法及时处理的缺陷。

Description

一种数据中心DCI监控告警方法、系统及计算装置
技术领域
本发明涉及数据中心链路技术领域,尤其涉及一种数据中心DCI监控告警方法、系统及计算装置。
背景技术
随着通信技术的发展,数据中心的规模越来越大,数据中心的耗电量也越来也多,而数据中心百分之一的功耗降低都会节约大量的电能,因此,关于如何降低数据中心的功耗的研究也越来越热门,在数据中心的功耗中,相当一部分的功耗来自于服务器闲置时带来的空闲功耗,空闲功耗中又有很大比例的功耗由服务器之间的空闲的数据中心DCI产生,因此,对于数据中心DCI的监控是解决空闲数据中心DCI产生的有效措施之一,而传统的数据中心DCI监控只能监测少数链路的使用情况,无法全面监测所有链路,容易导致一些高利用率的链路在使用过程中出现故障或负载过高而无法及时处理。
发明内容
有鉴于此,本发明提出一种数据中心DCI监控告警方法、系统及计算装置,可以解决现有技术所存在的无法全面监测所有链路的缺陷。
本发明的技术方案是这样实现的:
一种数据中心DCI监控告警方法,具体包括:
采集数据中心所有数据链路的吞吐量簇;
依据吞吐量簇计算每条数据链路的流量和延迟量;
计算每条数据链路的带宽;
依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率;
当数据链路利用率达到预设阈值时,对该数据链路进行实时告警,从而实现数据中心DC I的监控告警。
作为所述数据中心DC I监控告警方法的进一步可选方案,所述采集数据中心所有数据链路的吞吐量簇,具体包括:
采集各终端获取不同通道数据的吞吐量;
将不同通道数据的吞吐量进行分类,得到吞吐量簇。
作为所述数据中心DC I监控告警方法的进一步可选方案,所述依据吞吐量簇计算每条数据链路的流量和延迟量,具体包括:
依据吞吐量簇计算每条数据链路的数据输入量、数据输出量、数据输入时间和数据生成时间;
依据每条数据链路的数据输入量和数据输出量,计算出每条数据链路的流量;
依据每条数据链路的数据输入时间和数据生成时间,计算出每条数据链路的延迟量。
作为所述数据中心DC I监控告警方法的进一步可选方案,所述计算每条数据链路的带宽,具体包括:
获取源路由器与目的路由器之间的链路信息,其中,所述链路信息包括所述链路探测报文经过的各路由器的对应接口IP地址;
根据所述链路信息向所述各路由器和目的路由器分别发送带宽测试报文,收到所述各路由器和目的路由器响应的带宽后,统计出整条数据链路的带宽。
作为所述数据中心DC I监控告警方法的进一步可选方案,所述依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率,具体包括:
依据每条数据链路的流量与预设的每条数据链路最大可通行流量,得到流量占用率;
依据每条数据链路的延迟量与预设的每条数据链路最大延迟量,得到延迟占用率;
依据每条数据链路的带宽与预设的每条数据链路最大带宽,得到带宽占用;
将所述流量占用率、延迟占用率和带宽占用率与相对应的权重比进行相乘后再相加,得到每条数据链路的利用率。
作为所述数据中心DC I监控告警方法的进一步可选方案,所述当数据链路利用率达到预设阈值时,对该数据链路进行实时告警,具体包括:
分析数据链路告警原因;
依据所述数据链路告警原因生成告警报文,其中,所述告警报文包括告警级别、链路名称和告警原因;
依据告警报文的告警级别进行告警报文的发送,实现对该数据链路的实时告警。
作为所述数据中心DC I监控告警方法的进一步可选方案,所述预设阈值可动态调整,具体包括:
获取每条数据链路的历史使用数据;
依据所述历史使用数据搭建GRU神经网络模型;
依据所述GRU神经网络模型对每条数据链路的数据负载情况进行预测;
基于预测的数据负载情况进行阈值的动态调整。
一种数据中心DCI监控告警系统,包括:
采集模块,用于采集数据中心所有数据链路的吞吐量簇;
第一计算模块,用于依据吞吐量簇计算每条数据链路的流量和延迟量;
第二计算模块,用于计算每条数据链路的带宽;
第三计算模块,用于依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率;
告警模块,用于当数据链路利用率达到预设阈值时,对该数据链路进行实时告警,从而实现数据中心DCI的监控告警。
一种计算装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项数据中心DCI监控告警方法的步骤。
本发明的有益效果是:通过采集数据中心所有数据链路的吞吐量簇,并依据吞吐量簇计算每条数据链路的流量和延迟量,获取每条数据链路的带宽,能够有效依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率,从而有效对所有数据链路进行监控,解决了一些高利用率的链路在使用过程中出现故障或负载过高而无法及时处理的缺陷。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种数据中心DCI监控告警方法的流程示意图;
图2为本发明一种数据中心DCI监控告警系统的组成示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参考图1-2,一种数据中心DCI监控告警方法,具体包括:
采集数据中心所有数据链路的吞吐量簇;
依据吞吐量簇计算每条数据链路的流量和延迟量;
计算每条数据链路的带宽;
依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率;
当数据链路利用率达到预设阈值时,对该数据链路进行实时告警,从而实现数据中心DCI的监控告警。
在本实施例中,通过采集数据中心所有数据链路的吞吐量簇,并依据吞吐量簇计算每条数据链路的流量和延迟量,获取每条数据链路的带宽,能够有效依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率,从而有效对所有数据链路进行监控,解决了一些高利用率的链路在使用过程中出现故障或负载过高而无法及时处理的缺陷。
优选的,所述采集数据中心所有数据链路的吞吐量簇,具体包括:
采集各终端每个时间段内从不同通道获取的数据吞吐量;
将从不同通道获取的数据吞吐量进行分类,得到吞吐量簇。
在本实施例中,一个终端可连接多条数据链路,获取每个终端从每条数据链路获取的数据吞吐量,然后将同一时间段不同终端通过同一条数据链路所获取的数据吞吐量进行归类相加,得到吞吐量簇,从而实现每条数据链路的精准监控。
优选的,所述依据吞吐量簇计算每条数据链路的流量和延迟量,具体包括:
依据吞吐量簇计算每条数据链路的数据输入量、数据输出量、数据输入时间和数据生成时间;
依据每条数据链路的数据输入量和数据输出量,计算出每条数据链路的流量;
依据每条数据链路的数据输入时间和数据生成时间,计算出每条数据链路的延迟量。
在本实施例中,通过每条数据链路的数据输入量减去数据输出量,能够有效统计出每条数据链路当前承载的流量,通过计算每条数据链路的数据输入时间和数据生成时间的差值,能够将所述差值作为所述业务数据的处理时长,基于所述处理时长,有效确定所述数据链路存在的延迟。
优选的,所述计算每条数据链路的带宽,具体包括:
获取源路由器与目的路由器之间的链路信息,其中,所述链路信息包括所述链路探测报文经过的各路由器的对应接口IP地址;
根据所述链路信息向所述各路由器和目的路由器分别发送带宽测试报文,收到所述各路由器和目的路由器响应的带宽后,统计出整条数据链路的带宽。
在本实施例中,所述根据链路信息向所述各路由器和目的路由器分别发送带宽测试报文的方法为:所述源路由器根据链路信息中的对应接口IP地址分别向各路由器和目的路由器发送带宽测试报文,其中,所述分别向各路由器发送的带宽测试报文携带对应各路由器的上行路由器的对应接口IP地址和下行路由器的对应接口IP地址;
所述收到所述各路由器和目的路由器响应的带宽后,统计出整条链路的带宽的方法为:
所述源路由器收到各路由器和目的路由器发来的上行端口和下行端口的当前可用带宽,将上行端口的可用带宽中最小值作为要测试的链路的上行带宽;将下行端口的可用带宽中最小值作为要测试的链路的下行带宽。
优选的,所述依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率,具体包括:
依据每条数据链路的流量与预设的每条数据链路最大可通行流量,得到流量占用率;
依据每条数据链路的延迟量与预设的每条数据链路最大延迟量,得到延迟占用率;
依据每条数据链路的带宽与预设的每条数据链路最大带宽,得到带宽占用;
将所述流量占用率、延迟占用率和带宽占用率与相对应的权重比进行相乘后再相加,得到每条数据链路的利用率。
优选的,所述当数据链路利用率达到预设阈值时,对该数据链路进行实时告警,具体包括:
分析数据链路告警原因;
依据所述数据链路告警原因生成告警报文,其中,所述告警报文包括告警级别、链路名称和告警原因;
依据告警报文的告警级别进行告警报文的发送,实现对该数据链路的实时告警。
在本实施例中,通过分析数据链路告警原因,能够有效得到数据链路的告警级别,然后依据告警级别发送告警报文,能够有效对需要紧急处理的数据链路进行及时的处理,进一步防止一些高利用率的链路在使用过程中出现故障或负载过高而无法及时处理的情况发生。
优选的,所述预设阈值可动态调整,具体包括:
获取每条数据链路的历史使用数据;
依据所述历史使用数据搭建GRU神经网络模型;
依据所述GRU神经网络模型对每条数据链路的数据负载情况进行预测;
基于预测的数据负载情况进行阈值的动态调整。
在本实施例中,通过搭建GRU神经网络模型,依据搭建GRU神经网络模型对每条数据链路的数据负载情况进行预测,能够准确了解每条数据链路的数据负载情况,并基于预测的数据负载情况进行阈值的动态调整,能够有效避免过多的误报和漏报,提高监控告警的准确性和实用性,减少管理员的工作量和误判率。
一种数据中心DCI监控告警系统,包括:
采集模块,用于采集数据中心所有数据链路的吞吐量簇;
第一计算模块,用于依据吞吐量簇计算每条数据链路的流量和延迟量;
第二计算模块,用于计算每条数据链路的带宽;
第三计算模块,用于依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率;
告警模块,用于当数据链路利用率达到预设阈值时,对该数据链路进行实时告警,从而实现数据中心DCI的监控告警。
在本实施例中,通过采集数据中心所有数据链路的吞吐量簇,并依据吞吐量簇计算每条数据链路的流量和延迟量,获取每条数据链路的带宽,能够有效依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率,从而有效对所有数据链路进行监控,解决了一些高利用率的链路在使用过程中出现故障或负载过高而无法及时处理的缺陷。
一种计算装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项数据中心DCI监控告警方法的步骤。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种数据中心DCI监控告警方法,其特征在于,具体包括:
采集数据中心所有数据链路的吞吐量簇;
依据吞吐量簇计算每条数据链路的流量和延迟量;
计算每条数据链路的带宽;
依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率;
当数据链路利用率达到预设阈值时,对该数据链路进行实时告警,从而实现数据中心DCI的监控告警。
2.根据权利要求1所述的一种数据中心DCI监控告警方法,其特征在于,所述采集数据中心所有数据链路的吞吐量簇,具体包括:
采集各终端获取不同通道数据的吞吐量;
将不同通道数据的吞吐量进行分类,得到吞吐量簇。
3.根据权利要求2所述的一种数据中心DCI监控告警方法,其特征在于,所述依据吞吐量簇计算每条数据链路的流量和延迟量,具体包括:
依据吞吐量簇计算每条数据链路的数据输入量、数据输出量、数据输入时间和数据生成时间;
依据每条数据链路的数据输入量和数据输出量,计算出每条数据链路的流量;
依据每条数据链路的数据输入时间和数据生成时间,计算出每条数据链路的延迟量。
4.根据权利要求3所述的一种数据中心DCI监控告警方法,其特征在于,所述计算每条数据链路的带宽,具体包括:
获取源路由器与目的路由器之间的链路信息,其中,所述链路信息包括所述链路探测报文经过的各路由器的对应接口IP地址;
根据所述链路信息向所述各路由器和目的路由器分别发送带宽测试报文,收到所述各路由器和目的路由器响应的带宽后,统计出整条数据链路的带宽。
5.根据权利要求4所述的一种数据中心DCI监控告警方法,其特征在于,所述依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率,具体包括:
依据每条数据链路的流量与预设的每条数据链路最大可通行流量,得到流量占用率;
依据每条数据链路的延迟量与预设的每条数据链路最大延迟量,得到延迟占用率;
依据每条数据链路的带宽与预设的每条数据链路最大带宽,得到带宽占用;
将所述流量占用率、延迟占用率和带宽占用率与相对应的权重比进行相乘后再相加,得到每条数据链路的利用率。
6.根据权利要求5所述的一种数据中心DCI监控告警方法,其特征在于,所述当数据链路利用率达到预设阈值时,对该数据链路进行实时告警,具体包括:
分析数据链路告警原因;
依据所述数据链路告警原因生成告警报文,其中,所述告警报文包括告警级别、链路名称和告警原因;
依据告警报文的告警级别进行告警报文的发送,实现对该数据链路的实时告警。
7.根据权利要求6所述的一种数据中心DCI监控告警方法,其特征在于,所述预设阈值可动态调整,具体包括:
获取每条数据链路的历史使用数据;
依据所述历史使用数据搭建GRU神经网络模型;
依据所述GRU神经网络模型对每条数据链路的数据负载情况进行预测;
基于预测的数据负载情况进行阈值的动态调整。
8.一种数据中心DCI监控告警系统,其特征在于,包括:
采集模块,用于采集数据中心所有数据链路的吞吐量簇;
第一计算模块,用于依据吞吐量簇计算每条数据链路的流量和延迟量;
第二计算模块,用于计算每条数据链路的带宽;
第三计算模块,用于依据每条数据链路的流量、延迟量和带宽计算每条数据链路的利用率;
告警模块,用于当数据链路利用率达到预设阈值时,对该数据链路进行实时告警,从而实现数据中心DCI的监控告警。
9.一种计算装置,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-7中任意一项数据中心DCI监控告警方法的步骤。
CN202311166226.4A 2023-09-11 2023-09-11 一种数据中心dci监控告警方法、系统及计算装置 Pending CN117135091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311166226.4A CN117135091A (zh) 2023-09-11 2023-09-11 一种数据中心dci监控告警方法、系统及计算装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311166226.4A CN117135091A (zh) 2023-09-11 2023-09-11 一种数据中心dci监控告警方法、系统及计算装置

Publications (1)

Publication Number Publication Date
CN117135091A true CN117135091A (zh) 2023-11-28

Family

ID=88859864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311166226.4A Pending CN117135091A (zh) 2023-09-11 2023-09-11 一种数据中心dci监控告警方法、系统及计算装置

Country Status (1)

Country Link
CN (1) CN117135091A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909907A (zh) * 2024-03-14 2024-04-19 宁德时代新能源科技股份有限公司 高通量计算平台及其异常排除方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909907A (zh) * 2024-03-14 2024-04-19 宁德时代新能源科技股份有限公司 高通量计算平台及其异常排除方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN108123849B (zh) 检测网络流量的阈值的确定方法、装置、设备及存储介质
US10783219B2 (en) Distributed equipment abnormality detection system for monitoring physical amounts of equipments and detecting abnormality of each equipment
CN117135091A (zh) 一种数据中心dci监控告警方法、系统及计算装置
CN112684301B (zh) 一种电网故障的检测方法和装置
CN116761194B (zh) 一种无线通信网络中警务协同通信优化系统及方法
CN106533791A (zh) 一种基于大数据平台的端到端业务质量优化装置及方法
CN113922412B (zh) 一种新能源多场站短路比全景化评估方法、系统、存储介质及计算设备
CN108809720A (zh) 云数据系统中告警任务的管理方法和装置
CN115603453A (zh) 一种带智能监测系统的直流母线群控装置
CN116628774A (zh) 一种基于云计算的数据存储完整性监管系统
CN111901134B (zh) 一种基于循环神经网络模型rnn的预测网络质量的方法和装置
CN110621003B (zh) 一种电气设备故障诊断装置
CN118013351A (zh) 一种基于双模通信技术的数据采集方法及系统
CN116506339A (zh) 一种电力行业网络安全实时监测分析系统
CN113727092B (zh) 基于决策树的视频监控质量巡检方法及装置
CN117040141B (zh) 电力智能网关的安全监测系统及方法
CN114547025A (zh) 一种储能电站数据处理方法、装置及计算机设备
CN113391611B (zh) 动力环境监控系统的预警方法、装置及系统
CN115952071A (zh) 服务器能耗模型构建方法、服务器能耗模型及预测方法
CN113794646B (zh) 能源行业的监控数据传输系统及方法
CN114158081B (zh) 端到端感知预警方法装置、计算机设备
CN117692302B (zh) 一种数据收集存储和智能监控告警的方法及系统
CN111817923B (zh) 交换机端口流量突变的预警分析方法和装置
CN115995853B (zh) 一种基于功率控制的交直流配电系统过程管理方法及系统
CN117395198B (zh) 一种电力通信网络拥塞报警方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination