CN110809060A - 一种应用服务器集群的监控系统及监控方法 - Google Patents
一种应用服务器集群的监控系统及监控方法 Download PDFInfo
- Publication number
- CN110809060A CN110809060A CN201911123932.4A CN201911123932A CN110809060A CN 110809060 A CN110809060 A CN 110809060A CN 201911123932 A CN201911123932 A CN 201911123932A CN 110809060 A CN110809060 A CN 110809060A
- Authority
- CN
- China
- Prior art keywords
- data
- application
- application server
- request
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1029—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers using data related to the state of servers by a load balancer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1031—Controlling of the operation of servers by a load balancer, e.g. adding or removing servers that serve requests
Abstract
本发明提供了一种应用服务器集群的监控系统及监控方法,所述监控系统包括:应用服务器集群,包括若干应用服务器;负载均衡器,用于获取客户端发送的应用请求数据,并根据应用请求数据从应用服务器集群中选择出若干个应用服务器,作为选中应用服务器;监测模块,用于定时向选中应用服务器发送服务请求,并实时监测选中应用服务器的请求处理状态,获取监测结果;和报警模块,用于对监测模块所获取的监测结果中的异常信息进行报警。根据本发明的应用服务器集群的监控系统,避免了对全部的应用服务器进行监测,在监测总时长不变的情况下,可以增加对每个选中应用服务器的监测时长,可以提高监测的灵敏度,进而提高应用服务器的性能和稳定性。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种应用服务器集群的监控系统及监控方法。
背景技术
随着互联网技术的快速发展和互联网中数据信息量的不断增加,人们对互 联网的依赖程度不断提高,导致对互联网的数据访问流量迅速增长。目前大部 分网站(尤其是电子商务类的网站)需要提供24小时不间断服务,任何后台服务器的中断或通信失败导致的关键数据丢失都会造成很大的损失,这对互联网中使用的后台服务器提出了高性能、高可靠的要求。
相对于网络技术的发展,各后台服务器处理数据的速度和内存访问速度的增长却远远低于网络带宽和应用程序的增长速度。网络带宽增长的同时带来了用户数量的增长,这使得后台服务器硬件资源消耗更为严重,使用单机后台服务器为一个网站服务的方式已经远远不能满足现实的需求,当前后台服务器的性能制约已经成为了互联网技术发展的瓶颈。
在现有的互联网架构下,为了克服上述问题,提出组建后台服务器集群,利用负载均衡技术在业务执行时实现后台服务器集群中各服务器的负载均衡。虽然服务器集群技术已经发展成熟,但仍然面临着不同的挑战。例如,服务器集群虽然能够提高处理的效率,但是对于服务器集群而言,其运行状态的监控对于整个系统的运行起着重大的作用。
因此,如何实现对服务器集群的监控是本领域技术人员亟待解决 的问题。
发明内容
本发明提供一种应用服务器集群的监控系统及监控方法,用以实现应用服务器的性能和稳定性的提高。
本发明提供一种应用服务器集群的监控系统,包括:
应用服务器集群,所述应用服务器集群包括若干应用服务器;
负载均衡器,用于获取客户端发送的应用请求数据,并根据所述应用请求数据从所述应用服务器集群中选择出若干个应用服务器,作为选中应用服务器;
监测模块,用于定时地向所述选中应用服务器发送服务请求,并实时监测所述选中应用服务器的请求处理状态,获取监测结果;和
报警模块,用于对所述监测模块所获取的所述监测结果中的异常信息进行报警。
进一步地,所述监测模块定时地向所述选中应用服务器发送服务请求,并实时监测所述选中应用服务器的请求处理状态,获取监测结果执行以下步骤:
接收中心服务器发送的针对所述选中应用服务器的可用性的监控任务,其中,所述监控任务包括任务列表,在所述任务列表中包含有所述选中应用服务器的IP地址;
向所述选中应用服务器的IP地址逐个发送所述服务请求,探测所述IP地址是否可达;
收集所述选中应用服务器对所述服务请求的响应,作为所述监测结果。
进一步地,所述应用服务器集群的监控系统还包括异常处理模块,用于根据预设的异常处理预案,对所述异常信息进行处理。
进一步地,所述异常处理模块根据预设的异常处理预案,对所述异常信息进行处理包括:
根据所述监测结果,判断是否需要增减所述负载均衡器选择的所述选中应用服务器的数量,
若处理所述服务请求的所述选中应用服务器的数量达到或超出设定阈值时,则需要增加所述选中应用服务器的数量来共同处理当前所有的服务请求,
若处理所述服务请求的所述选中应用服务器的数量未达到或超出设定阈值时,则暂时维持或适当减少负载均衡节点的数量。
进一步地,所述应用服务器集群的监控系统还包括信息采集模块,用于采集所述应用服务器集群中的每个应用服务器的运行信息,并将所述运行信息向所述监测模块传输,以使所述监测模块对所述运行状态进行监测。
进一步地,所述应用服务器集群中的每个应用服务器包括:
第一判断模块,用于在接收到数据处理请求消息时,判断自身是否具有响应所述数据处理请求消息的能力;
转发模块,用于在确定不具有响应所述数据处理请求消息的能力时,根据本地存储的所述应用服务器集群中其他应用服务器的能力信息,选择具有响应该数据处理请求消息能力的应用服务器作为备选应用服务器,并将所述数据处理请求消息转发给选择的所述备选应用服务器。
进一步地,所述负载均衡器包括:
获取模块,用于获取客户端发送的应用请求数据;
服务器选择模块,用于根据所述应用请求数据从所述应用服务器集群中选择出若干个应用服务器,作为所述选中应用服务器;
数据发送模块,用于将所述应用请求数据发送给选择出的所述选中应用服务器;
接收模块,用于接收所述选中服务器根据所述应用请求数据返回的数据处理结果,其中,所述数据处理结果至少包括:处理日志信息,所述处理日志信息包括所述选中应用服务器处理所述应用请求的执行记录。
进一步地,所述应用服务器集群的监控系统还包括:
累加模块,用于在所述负载均衡器接收到所述处理日志信息后,对所述选中服务器的处理次数进行累加,其中,所述处理次数用于记录每个所述应用服务器处理所述应用请求的处理次数;
第二判断模块,用于根据所述处理日志信息,判断所述选中应用服务器对所述应用请求是否处理成功;
记录模块,用于当所述选中服务器对所述应用请求处理成功时,对所述选中应用服务器处理所述应用请求的任务处理时长进行记录;
计算模块,用于根据所述任务处理时长与所述处理次数,计算每个所述应用服务器在预定时间内的平均处理时长;
排序模块,用于根据所述平均处理时长和所述处理次数,对所述应用服务器集群中的每个所述应用服务器进行排序处理。
进一步地,所述负载均衡器在选择应用服务器时包括如下步骤:
步骤A1、获取所述服务器集群中能用于数据传输的应用服务器的数量,并获取所有客户端发送的应用请求数据所对应的客户端的IP地址、端口号、同时获取客户端发送的应用请求数据的数据源的IP地址、端口号、应用请求数据的数据类型五个指标数值化后的值;
步骤A2、确定任意两条应用请求数据的传输距离,
步骤A3、将数据传输距离最小的两条数据作为一条综合数据,综合数据的各指标的值为对应的两条数据的指标值的均值,将综合数据的各指标的值为对应的两条数据作为一个群体存储,并从应用请求数据剔除这两条数据,将综合数据增加至应用请求数据;
步骤A4、重复步骤A3,直至任意两条应用请求数据传输距离大于0.05;
步骤A5、确定所述应用服务器集群中每个能用于数据传输的应用服务器的响应时间;
其中,为服务器集群中第个能用于数据传输的应用服务器的响应时间,为服务器集群中第个能用于数据传输的应用服务器的第个数据请求的处理完成时间,为服务器集群中第个能用于数据传输的应用服务器的第个数据请求到达服务器集群中第个能用于数据传输的应用服务器的时间, 为服务器集群中第个能用于数据传输的应用服务器的第个数据请求到达服务器集群的时间, 为服务器集群中第个能用于数据传输的应用服务器所传输的数据请求的总量;
步骤A6、确定服务器集群中每个能用于数据传输的应用服务器的负载时间,获取负载时间最小的应用服务器,并计算所述应用服务器与群体之间的综合负载时间;
其中,为所述应用服务器与第个群体之间的综合负载时间, 为所述应用服务器的响应时间, 为所述应用服务器的IP地址,为所述应用服务器的端口号,为第个群体中的第条应用请求数据的第个指标的值,为第个群体中的第条应用请求数据的数据大小,为第个群体中含有的应用请求数据的总量;
步骤A7、选择所述应用服务器的所有综合负载时间中的最小值对应的群体作为所述应用服务器本次负载数据,即将所述群体中所有的应用请求数据通过所述应用服务器传输,并将所述应用服务器的负载时间增加综合负载时间中的最小值作为刷新的负载时间,并重复步骤A6和步骤A7,直至所有的群体都分配到相应的应用服务器中;
步骤A8、通过步骤A6选择的应用服务器则为负载均衡器所选择的应用服务器,通过步骤A7则确定每个应用服务器所传输的应用请求数据。
本发明实施例提供的一种应用服务器集群的监控系统,具有以下有益效果:监控模块仅针对应用服务器集群中的选中应用服务器进行监测,获取监测结果,避免了对全部的应用应用服务器进行监测,在监测总时长不变的情况下,可以增加对每个选中应用服务器的监测时长,因而可以提高监测的灵敏度,便于及时发现异常信息,进而提高应用服务器的性能和稳定性,提高服务器资源利用率,降低单个应用服务器的过载风险,提高用户体验度。
本发明还提供一种应用服务器集群的监控方法,所述监控方法执行以下步骤:
步骤1:获取客户端发送的应用请求数据,并根据所述应用请求数据从包括若干应用服务器的应用服务器集群中选择出若干个应用服务器,作为选中应用服务器;
步骤2:定时地向所述选中应用服务器发送服务请求,并实时监测所述选中应用服务器的请求处理状态,获取监测结果;
步骤3:对所述监测模块所获取的所述监测结果中的异常信息进行报警。
本发明实施例提供的一种应用服务器集群的监控方法,具有以下有益效果:仅针对应用服务器集群中的选中应用服务器进行监测,获取监测结果,避免了对全部的应用应用服务器进行监测,在监测总时长不变的情况下,可以增加对每个选中应用服务器的监测时长,因而可以提高监测的灵敏度,便于及时发现异常信息,进而提高应用服务器的性能和稳定性,提高服务器资源利用率,降低单个应用服务器的过载风险,提高用户体验度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种应用服务器集群的监控系统的框图;
图2为本发明实施例中一种应用服务器集群的监控方法的流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种应用服务器集群的监控系统,如图1所示,包括:
应用服务器集群101,所述应用服务器集群101包括若干应用服务器;
负载均衡器102,用于获取客户端发送的应用请求数据,并根据所述应用请求数据从所述应用服务器集群101中选择出若干个应用服务器,作为选中应用服务器;
监测模块103,用于定时地向所述选中应用服务器发送服务请求,并实时监测所述选中应用服务器的请求处理状态,获取监测结果;和
报警模块104,用于对所述监测模块所获取的所述监测结果中的异常信息进行报警。
上述技术方案的工作原理为:负载均衡器102获取客户端发送的应用请求数据,并根据应用请求数据从应用服务器集群中选择出若干个应用服务器,作为选中应用服务器;监测模块103定时地向选中应用服务器发送服务请求,并实时监测选中应用服务器的请求处理状态,获取监测结果;报警模块104对监测模块所获取的监测结果中的异常信息进行报警。
其中,所述报警模块104可通过蜂鸣器、短信提醒、微信提醒,通知技术人员技术及时处理异常情况。
所述应用服务器集群101包括:计算机,PC服务器、交换机和/或存储设备。并且所述应用服务器集群101通过以太网与所述监测模块103通信连接。所述选中应用服务器的数量小于等于所述应用服务器集群101包括的应用服务器的数量。
示例性地,所述监测模块103向所述选中应用服务器发送服务请求的时间间隔为3s-10s,例如为5s。
上述技术方案的有益效果为:监控模块仅针对应用服务器集群中的选中应用服务器进行监测,获取监测结果,避免了对全部的应用应用服务器进行监测,在监测总时长不变的情况下,可以增加对每个选中应用服务器的监测时长,因而可以提高监测的灵敏度,便于及时发现异常信息,进而提高应用服务器的性能和稳定性,提高服务器资源利用率,降低单个应用服务器的过载风险,提高用户体验度。
在一个实施例中,所述监测模块定时地向所述选中应用服务器发送服务请求,并实时监测所述选中应用服务器的请求处理状态,获取监测结果执行以下步骤:
接收中心服务器发送的针对所述选中应用服务器的可用性的监控任务,其中,所述监控任务包括任务列表,在所述任务列表中包含有所述选中应用服务器的IP地址;
向所述选中应用服务器的IP地址逐个发送所述服务请求,探测所述IP地址是否可达;
收集所述选中应用服务器对所述服务请求的响应,作为所述监测结果。
上述技术方案的工作原理为:可采用Ping探测选中应用服务器的可用性,获取的监测结果包括选中应用服务器IP、响应延时、丢包率中的一种或多种。
上述技术方案的有益效果为:向选中应用服务器的IP地址逐个发送服务请求,探测所述IP地址是否可达,并收集选中应用服务器对服务请求的响应,可以分别收集每个选中应用服务器的响应,提高监测结果的准确性。
在一个实施例中,所述应用服务器集群的监控系统还包括异常处理模块,用于根据预设的异常处理预案,对所述异常信息进行处理。
上述技术方案的工作原理为:所述异常处理预案包括:根据所述异常信息来源的应用服务器的IP地址启动相应的备用应用服务器,异常信息来源的应用服务器的IP地址不同,则对应的应用服务器也不同,因为不同的IP地址可能对应不同的应用服务器集群,不同应用服务器集群的作业能力不同,因此启用的备用应用服务器也不同。
所述异常处理预案还包括:将所述异常信息通知相应的应用服务器集群的管理员,以便进一步处理。具体通知形式可以是预先编辑好异常说明信息,在故障发生时,直接将所述异常说明信息推送至管理员的移动设备,从而及时提醒管理员。
上述技术方案的有益效果为:通过异常处理模块,便于对异常信息进行及时处理,有助于提高应用服务器集群的稳定性。
在一个实施例中,所述异常处理模块根据预设的异常处理预案,对所述异常信息进行处理包括:
根据所述监测结果,判断是否需要增减所述负载均衡器选择的所述选中应用服务器的数量,
若处理所述服务请求的所述选中应用服务器的数量达到或超出设定阈值时,则需要增加所述选中应用服务器的数量来共同处理当前所有的服务请求,
若处理所述服务请求的所述选中应用服务器的数量未达到或超出设定阈值时,则暂时维持或适当减少负载均衡节点的数量。
上述技术方案的工作原理为:所述设定阈值可以由管理人员进行设置,例如,预计该应用服务器集群的最大处理能力为每服务周期内能处理100个服务请求,那么为了保证系统的平稳运行,可以设置处理服务请求的阈值为每服务周期内处理80个服务请求,当然,这里只是举例说明,所述阈值并不限于此,技术人员还可以根据实际需要设置阈值。
上述技术方案的有益效果为:在处理服务请求的选中应用服务器的数量达到或超出设定阈值时,可以尽快减轻应用服务器集群的负担,加快运行速度。
在一个实施例中,所述应用服务器集群的监控系统还包括信息采集模块,用于采集所述应用服务器集群中的每个应用服务器的运行信息,并将所述运行信息向所述监测模块传输,以使所述监测模块对所述运行状态进行监测。
上述技术方案的工作原理为:当某个应用服务器正常运行时,即使不对该应用服务器进行监控也不会对整个服务器集群产生不良的影响,但是如果某一个应用服务器出现故障而不被及时发现的话,有可能导致服务器集群产生故障,甚至瘫痪。信息采集模块采集应用服务器集群中的每个应用服务器的运行信息,并将运行信息向所述监测模块传输,以使监测模块对运行状态进行监测。所述信息采集模块将运行信息按照所属应用服务器和信息类型分类存储到数据库中。
上述技术方案的有益效果为:借助于信息采集模块,可以监测每个应用服务器的运行信息,便于及时发现出现故障的应用服务器集群。
在一个实施例中,所述应用服务器集群中的每个应用服务器包括:
第一判断模块,用于在接收到数据处理请求消息时,判断自身是否具有响应所述数据处理请求消息的能力;
转发模块,用于在确定不具有响应所述数据处理请求消息的能力时,根据本地存储的所述应用服务器集群中其他应用服务器的能力信息,选择具有响应该数据处理请求消息能力的应用服务器作为备选应用服务器,并将所述数据处理请求消息转发给选择的所述备选应用服务器。
上述技术方案的工作原理为:将同一应用服务器集群中的应用服务器划分成多个小组,每个小组中包含多个应用服务器,所述转发模块判断其所在小组内是否存在具有响应该数据处理请求消息能力的应用服务器,若是,则从所在小组内选择应用服务器作为备选应用服务器;否则从其他小组内选择应用服务器作为备选应用服务器。
上述技术方案的有益效果为:借助于第一判断模块和转发模块,在不具有响应数据处理请求消息的能力时,每个应用服务器可以将数据处理请求消息转发给具有响应数据处理请求消息能力的应用服务器。
在一个实施例中,所述负载均衡器包括:
获取模块,用于获取客户端发送的应用请求数据;
服务器选择模块,用于根据所述应用请求数据从所述应用服务器集群中选择出若干个应用服务器,作为所述选中应用服务器;
数据发送模块,用于将所述应用请求数据发送给选择出的所述选中应用服务器;
接收模块,用于接收所述选中服务器根据所述应用请求数据返回的数据处理结果,其中,所述数据处理结果至少包括:处理日志信息,所述处理日志信息包括所述选中应用服务器处理所述应用请求的执行记录。
上述技术方案的工作原理为:获取模块获取客户端发送的应用请求数据;服务器选择模块根据应用请求数据从应用服务器集群中选择出若干个应用服务器作为所述选中应用服务器;数据发送模块将应用请求数据发送给选中应用服务器;接收模块接收选中服务器根据应用请求数据返回的数据处理结果。
上述技术方案的有益效果为:可以实现应用请求数据的接收及发送、数据处理结果的接收、选中应用服务器的选择。
在一个实施例中,所述应用服务器集群的监控系统还包括:
累加模块,用于在所述负载均衡器接收到所述处理日志信息后,对所述选中服务器的处理次数进行累加,其中,所述处理次数用于记录每个所述应用服务器处理所述应用请求的处理次数;
第二判断模块,用于根据所述处理日志信息,判断所述选中应用服务器对所述应用请求是否处理成功;
记录模块,用于当所述选中服务器对所述应用请求处理成功时,对所述选中应用服务器处理所述应用请求的任务处理时长进行记录;
计算模块,用于根据所述任务处理时长与所述处理次数,计算每个所述应用服务器在预定时间内的平均处理时长;
排序模块,用于根据所述平均处理时长和所述处理次数,对所述应用服务器集群中的每个所述应用服务器进行排序处理。
上述技术方案的工作原理为:第二判断模块可以通过根据处理日志信息中是否包含有错误代码,来判断目标服务器对数据处理请求的处理是否成功。当处理日志信息中不存在错误代码时,记录模块从处理日志信息中读取选中应用服务器对数据处理请求开始处理的时间和结束处理的时间。根据开始处理时间和结束处理时间,确定选中应用服务器对数据处理请求的处理时长。可以将处理时长保存至数据库中。
通过计算模块和排序模块,负载均衡器可以根据应用服务器集群中每个应用服务器的处理次数和处理时长,确定在预定时间区间内,应用服务器集群中的每个应用服务器用于处理数据处理请求所耗费的平均处理时长。根据平均时长,对每台应用服务器按照平均时长由短到长进行排序。对于平均时长相同的应用服务器,可以进一步的根据处理次数的数量进行排序。此外,负载均衡服务器还可以通过对在预定时间区间内每个应用服务器用于处理数据处理请求所耗费的总时长与预定时间区间的时间长度,来计算每个应用服务的负载率,通过负载率的高低对应用服务器集群中的应用服务器进行排序处理。
上述技术方案的有益效果为:通过累加模块、第二判断模块、记录模块、计算模块和排序模块,便于使负载均衡器对应用服务器进行选择。
在一个实施例中,所述负载均衡器在选择应用服务器时包括如下步骤:
步骤A1、获取所述服务器集群中能用于数据传输的应用服务器的数量,并获取所有客户端发送的应用请求数据所对应的客户端的IP地址、端口号、同时获取客户端发送的应用请求数据的数据源的IP地址、端口号、应用请求数据的数据类型五个指标数值化后的值;
所述数值化则为,将指标中的值原来就为数值的值不做改变,将原来不是数值的值用数值表示,例如数据源IP地址可能是186.7.1.108,则用1860070001108来表示;
步骤A2、确定任意两条应用请求数据的传输距离,
其中,第1个指标为客户端的IP地址、第2个指标为客户端的端口号、第3个指标为数据源的IP地址、第4个指标为数据源的端口号、第5个指标为应用请求数据的数据类型;
步骤A3、将数据传输距离最小的两条数据作为一条综合数据,综合数据的各指标的值为对应的两条数据的指标值的均值,将综合数据的各指标的值为对应的两条数据作为一个群体存储,并从应用请求数据剔除这两条数据,将综合数据增加至应用请求数据;
步骤A4、重复步骤A3,直至任意两条应用请求数据传输距离大于0.05;
步骤A5、确定所述应用服务器集群中每个能用于数据传输的应用服务器的响应时间;
其中,为服务器集群中第个能用于数据传输的应用服务器的响应时间,为服务器集群中第个能用于数据传输的应用服务器的第个数据请求的处理完成时间,为服务器集群中第个能用于数据传输的应用服务器的第个数据请求到达服务器集群中第个能用于数据传输的应用服务器的时间, 为服务器集群中第个能用于数据传输的应用服务器的第个数据请求到达服务器集群的时间,为服务器集群中第个能用于数据传输的应用服务器所传输的数据请求的总量;
步骤A6、确定服务器集群中每个能用于数据传输的应用服务器的负载时间,获取负载时间最小的应用服务器,并计算所述应用服务器与群体之间的综合负载时间;
其中,为所述应用服务器与第个群体之间的综合负载时间,为所述应用服务器的响应时间,为所述应用服务器的IP地址,为所述应用服务器的端口号,为第个群体中的第条应用请求数据的第个指标的值,为第个群体中的第条应用请求数据的数据大小, 为第个群体中含有的应用请求数据的总量;
步骤A7、选择所述应用服务器的所有综合负载时间中的最小值对应的群体作为所述应用服务器本次负载数据,即将所述群体中所有的应用请求数据通过所述应用服务器传输,并将所述应用服务器的负载时间增加综合负载时间中的最小值作为刷新的负载时间,并重复步骤A6和步骤A7,直至所有的群体都分配到相应的应用服务器中;
步骤A8、通过步骤A6选择的应用服务器则为负载均衡器所选择的应用服务器,通过步骤A7则确定每个应用服务器所传输的应用请求数据。
上述技术方案的有益效果为:利用上述数据,能够根据获取的客户端发送的应用请求数据,自动的确定用于数据传输的应用服务器,并确定每条数据的传输服务器,并且在确定应用服务器之前,首先通过客户端和应用请求数据的数据源和数据类型将数据分为不同的群体,使得每个群体中的数据,不论是客户端还是数据源都接近,且所述数据的类型差异也小,使得服务器在传输时,能每次传输同样的数据类型以及在同样的路径中传输,避免不断地切换所消耗时间,同时在传输时,还根据每个服务器的响应时间以及服务器和客户端、应用请求数据的数据源确定每个服务器进行所述数据传输时所需综合负载时间,从而不断的调整负载时间,使得所有服务器负载时间差异小,减少某个服务器的堵塞,同时提高整体传输效率。
本发明实施例还提供一种应用服务器集群的监控方法,所述监控方法执行以下步骤:
步骤1:获取客户端发送的应用请求数据,并根据所述应用请求数据从包括若干应用服务器的应用服务器集群中选择出若干个应用服务器,作为选中应用服务器;
步骤2:定时地向所述选中应用服务器发送服务请求,并实时监测所述选中应用服务器的请求处理状态,获取监测结果;
步骤3:对所述监测模块所获取的所述监测结果中的异常信息进行报警。
上述技术方案的工作原理为:获取客户端发送的应用请求数据,并根据应用请求数据从包括若干应用服务器的应用服务器集群中选择出若干个应用服务器,作为选中应用服务器;定时地向选中应用服务器发送服务请求,并实时监测选中应用服务器的请求处理状态,获取监测结果;对监测模块所获取的监测结果中的异常信息进行报警。
上述技术方案的有益效果为:仅针对应用服务器集群中的选中应用服务器进行监测,获取监测结果,避免了对全部的应用应用服务器进行监测,在监测总时长不变的情况下,可以增加对每个选中应用服务器的监测时长,因而可以提高监测的灵敏度,便于及时发现异常信息,进而提高应用服务器的性能和稳定性,提高服务器资源利用率,降低单个应用服务器的过载风险,提高用户体验度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种应用服务器集群的监控系统,其特征在于,包括:
应用服务器集群,所述应用服务器集群包括若干应用服务器;
负载均衡器,用于获取客户端发送的应用请求数据,并根据所述应用请求数据从所述应用服务器集群中选择出若干个应用服务器,作为选中应用服务器;
监测模块,用于定时地向所述选中应用服务器发送服务请求,并实时监测所述选中应用服务器的请求处理状态,获取监测结果;和
报警模块,用于对所述监测模块所获取的所述监测结果中的异常信息进行报警;
其中,所述负载均衡器在选择应用服务器时包括如下步骤:
步骤A1、获取所述服务器集群中能用于数据传输的应用服务器的数量,并获取所有客户端发送的应用请求数据所对应的客户端的IP地址、端口号、同时获取客户端发送的应用请求数据的数据源的IP地址、端口号、应用请求数据的数据类型五个指标数值化后的值;
步骤A2、确定任意两条应用请求数据的传输距离,
步骤A3、将数据传输距离最小的两条数据作为一条综合数据,综合数据的各指标的值为对应的两条数据的指标值的均值,将综合数据的各指标的值为对应的两条数据作为一个群体存储,并从应用请求数据剔除这两条数据,将综合数据增加至应用请求数据;
步骤A4、重复步骤A3,直至任意两条应用请求数据传输距离大于0.05;
步骤A5、确定所述应用服务器集群中每个能用于数据传输的应用服务器的响应时间;
其中,为服务器集群中第个能用于数据传输的应用服务器的响应时间,为服务器集群中第个能用于数据传输的应用服务器的第个数据请求的处理完成时间,为服务器集群中第个能用于数据传输的应用服务器的第个数据请求到达服务器集群中第个能用于数据传输的应用服务器的时间, 为服务器集群中第个能用于数据传输的应用服务器的第个数据请求到达服务器集群的时间,为服务器集群中第个能用于数据传输的应用服务器所传输的数据请求的总量;
步骤A6、确定服务器集群中每个能用于数据传输的应用服务器的负载时间,获取负载时间最小的应用服务器,并计算所述应用服务器与群体之间的综合负载时间;
其中,为所述应用服务器与第个群体之间的综合负载时间,为所述应用服务器的响应时间,为所述应用服务器的IP地址,为所述应用服务器的端口号,为第个群体中的第条应用请求数据的第个指标的值,为第个群体中的第条应用请求数据的数据大小,为第个群体中含有的应用请求数据的总量;
步骤A7、选择所述应用服务器的所有综合负载时间中的最小值对应的群体作为所述应用服务器本次负载数据,即将所述群体中所有的应用请求数据通过所述应用服务器传输,并将所述应用服务器的负载时间增加综合负载时间中的最小值作为刷新的负载时间,并重复步骤A6和步骤A7,直至所有的群体都分配到相应的应用服务器中;
步骤A8、通过步骤A6选择的应用服务器则为负载均衡器所选择的应用服务器,通过步骤A7则确定每个应用服务器所传输的应用请求数据。
2.如权利要求1所述的应用服务器集群的监控系统,其特征在于,所述监测模块定时地向所述选中应用服务器发送服务请求,并实时监测所述选中应用服务器的请求处理状态,获取监测结果执行以下步骤:
接收中心服务器发送的针对所述选中应用服务器的可用性的监控任务,其中,所述监控任务包括任务列表,在所述任务列表中包含有所述选中应用服务器的IP地址;
向所述选中应用服务器的IP地址逐个发送所述服务请求,探测所述IP地址是否可达;
收集所述选中应用服务器对所述服务请求的响应,作为所述监测结果。
3.如权利要求1所述的应用服务器集群的监控系统,其特征在于,所述应用服务器集群的监控系统还包括异常处理模块,用于根据预设的异常处理预案,对所述异常信息进行处理。
4.如权利要求1所述的应用服务器集群的监控系统,其特征在于,所述异常处理模块根据预设的异常处理预案,对所述异常信息进行处理包括:
根据所述监测结果,判断是否需要增减所述负载均衡器选择的所述选中应用服务器的数量,
若处理所述服务请求的所述选中应用服务器的数量达到或超出设定阈值时,则需要增加所述选中应用服务器的数量来共同处理当前所有的服务请求,
若处理所述服务请求的所述选中应用服务器的数量未达到或超出设定阈值时,则暂时维持或适当减少负载均衡节点的数量。
5.如权利要求1所述的应用服务器集群的监控系统,其特征在于,所述应用服务器集群的监控系统还包括信息采集模块,用于采集所述应用服务器集群中的每个应用服务器的运行信息,并将所述运行信息向所述监测模块传输,以使所述监测模块对所述运行状态进行监测。
6.如权利要求1所述的应用服务器集群的监控系统,其特征在于,所述应用服务器集群中的每个应用服务器包括:
第一判断模块,用于在接收到数据处理请求消息时,判断自身是否具有响应所述数据处理请求消息的能力;
转发模块,用于在确定不具有响应所述数据处理请求消息的能力时,根据本地存储的所述应用服务器集群中其他应用服务器的能力信息,选择具有响应该数据处理请求消息能力的应用服务器作为备选应用服务器,并将所述数据处理请求消息转发给选择的所述备选应用服务器。
7.如权利要求1所述的应用服务器集群的监控系统,其特征在于,所述负载均衡器包括:
获取模块,用于获取客户端发送的应用请求数据;
服务器选择模块,用于根据所述应用请求数据从所述应用服务器集群中选择出若干个应用服务器,作为所述选中应用服务器;
数据发送模块,用于将所述应用请求数据发送给选择出的所述选中应用服务器;
接收模块,用于接收所述选中服务器根据所述应用请求数据返回的数据处理结果,其中,所述数据处理结果至少包括:处理日志信息,所述处理日志信息包括所述选中应用服务器处理所述应用请求的执行记录。
8.如权利要求7所述的应用服务器集群的监控系统,其特征在于,所述应用服务器集群的监控系统还包括:
累加模块,用于在所述负载均衡器接收到所述处理日志信息后,对所述选中服务器的处理次数进行累加,其中,所述处理次数用于记录每个所述应用服务器处理所述应用请求的处理次数;
第二判断模块,用于根据所述处理日志信息,判断所述选中应用服务器对所述应用请求是否处理成功;
记录模块,用于当所述选中服务器对所述应用请求处理成功时,对所述选中应用服务器处理所述应用请求的任务处理时长进行记录;
计算模块,用于根据所述任务处理时长与所述处理次数,计算每个所述应用服务器在预定时间内的平均处理时长;
排序模块,用于根据所述平均处理时长和所述处理次数,对所述应用服务器集群中的每个所述应用服务器进行排序处理。
9.一种应用服务器集群的监控方法,其特征在于,所述监控方法执行以下步骤:
步骤1:获取客户端发送的应用请求数据,并根据所述应用请求数据从包括若干应用服务器的应用服务器集群中选择出若干个应用服务器,作为选中应用服务器;
步骤2:定时地向所述选中应用服务器发送服务请求,并实时监测所述选中应用服务器的请求处理状态,获取监测结果;
步骤3:对所述监测模块所获取的所述监测结果中的异常信息进行报警;
在选择应用服务器时包括如下步骤:
步骤A1、获取所述服务器集群中能用于数据传输的应用服务器的数量,并获取所有客户端发送的应用请求数据所对应的客户端的IP地址、端口号、同时获取客户端发送的应用请求数据的数据源的IP地址、端口号、应用请求数据的数据类型五个指标数值化后的值;
步骤A2、确定任意两条应用请求数据的传输距离,
步骤A3、将数据传输距离最小的两条数据作为一条综合数据,综合数据的各指标的值为对应的两条数据的指标值的均值,将综合数据的各指标的值为对应的两条数据作为一个群体存储,并从应用请求数据剔除这两条数据,将综合数据增加至应用请求数据;
步骤A4、重复步骤A3,直至任意两条应用请求数据传输距离大于0.05;
步骤A5、确定所述应用服务器集群中每个能用于数据传输的应用服务器的响应时间;
其中,为服务器集群中第个能用于数据传输的应用服务器的响应时间,为服务器集群中第个能用于数据传输的应用服务器的第个数据请求的处理完成时间,为服务器集群中第个能用于数据传输的应用服务器的第个数据请求到达服务器集群中第个能用于数据传输的应用服务器的时间,为服务器集群中第个能用于数据传输的应用服务器的第个数据请求到达服务器集群的时间, 为服务器集群中第个能用于数据传输的应用服务器所传输的数据请求的总量;
步骤A6、确定服务器集群中每个能用于数据传输的应用服务器的负载时间,获取负载时间最小的应用服务器,并计算所述应用服务器与群体之间的综合负载时间;
其中,为所述应用服务器与第个群体之间的综合负载时间,为所述应用服务器的响应时间, 为所述应用服务器的IP地址,为所述应用服务器的端口号,为第个群体中的第条应用请求数据的第个指标的值,为第个群体中的第条应用请求数据的数据大小,为第个群体中含有的应用请求数据的总量;
步骤A7、选择所述应用服务器的所有综合负载时间中的最小值对应的群体作为所述应用服务器本次负载数据,即将所述群体中所有的应用请求数据通过所述应用服务器传输,并将所述应用服务器的负载时间增加综合负载时间中的最小值作为刷新的负载时间,并重复步骤A6和步骤A7,直至所有的群体都分配到相应的应用服务器中;
步骤A8、通过步骤A6选择的应用服务器则为所选择的应用服务器,通过步骤A7则确定每个应用服务器所传输的应用请求数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911123932.4A CN110809060B (zh) | 2019-11-18 | 2019-11-18 | 一种应用服务器集群的监控系统及监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911123932.4A CN110809060B (zh) | 2019-11-18 | 2019-11-18 | 一种应用服务器集群的监控系统及监控方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110809060A true CN110809060A (zh) | 2020-02-18 |
CN110809060B CN110809060B (zh) | 2020-07-24 |
Family
ID=69490227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911123932.4A Active CN110809060B (zh) | 2019-11-18 | 2019-11-18 | 一种应用服务器集群的监控系统及监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110809060B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340445A (zh) * | 2020-02-24 | 2020-06-26 | 上海静飏信息科技有限公司 | 一种基于异常的分布式精细化管理系统及方法 |
CN111371623A (zh) * | 2020-03-13 | 2020-07-03 | 杨磊 | 业务性能和安全的监测方法、装置、存储介质及电子设备 |
CN111897706A (zh) * | 2020-07-15 | 2020-11-06 | 中国工商银行股份有限公司 | 服务器性能预测方法、装置、计算机系统和介质 |
CN112862117A (zh) * | 2021-01-18 | 2021-05-28 | 广东便捷神科技股份有限公司 | 无人零售终端机的维保运营管理方法及系统 |
CN113946376A (zh) * | 2021-10-29 | 2022-01-18 | 挂号网(杭州)科技有限公司 | 负载调整方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050262494A1 (en) * | 2004-05-18 | 2005-11-24 | Bea Systems, Inc. | Production redeployment through application versioning |
CN102123054A (zh) * | 2011-04-19 | 2011-07-13 | 北京神州数码思特奇信息技术股份有限公司 | 一种管理控制云计算网络技术系统 |
CN106550003A (zh) * | 2015-09-23 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 负载均衡的控制方法、装置及系统 |
-
2019
- 2019-11-18 CN CN201911123932.4A patent/CN110809060B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050262494A1 (en) * | 2004-05-18 | 2005-11-24 | Bea Systems, Inc. | Production redeployment through application versioning |
CN102123054A (zh) * | 2011-04-19 | 2011-07-13 | 北京神州数码思特奇信息技术股份有限公司 | 一种管理控制云计算网络技术系统 |
CN106550003A (zh) * | 2015-09-23 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 负载均衡的控制方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
朱瑞斌: "服务器集群监控系统的设计与实现", 《北京交通大学硕士专业学位论文》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340445A (zh) * | 2020-02-24 | 2020-06-26 | 上海静飏信息科技有限公司 | 一种基于异常的分布式精细化管理系统及方法 |
CN111371623A (zh) * | 2020-03-13 | 2020-07-03 | 杨磊 | 业务性能和安全的监测方法、装置、存储介质及电子设备 |
CN111371623B (zh) * | 2020-03-13 | 2023-02-28 | 杨磊 | 业务性能和安全的监测方法、装置、存储介质及电子设备 |
CN111897706A (zh) * | 2020-07-15 | 2020-11-06 | 中国工商银行股份有限公司 | 服务器性能预测方法、装置、计算机系统和介质 |
CN112862117A (zh) * | 2021-01-18 | 2021-05-28 | 广东便捷神科技股份有限公司 | 无人零售终端机的维保运营管理方法及系统 |
CN113946376A (zh) * | 2021-10-29 | 2022-01-18 | 挂号网(杭州)科技有限公司 | 负载调整方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110809060B (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110809060B (zh) | 一种应用服务器集群的监控系统及监控方法 | |
CN107872402B (zh) | 全局流量调度的方法、装置及电子设备 | |
US8135979B2 (en) | Collecting network-level packets into a data structure in response to an abnormal condition | |
EP2563062B1 (en) | Long connection management apparatus and link resource management method for long connection communication | |
CN1795446B (zh) | 计算机集群及其中的计算机节点和传送状态信息的方法 | |
CN110233860B (zh) | 一种负载均衡方法、装置和系统 | |
US8700773B2 (en) | Load balancing using redirect responses | |
CN109412966B (zh) | 一种大规模日志传输方法、装置及系统 | |
CN113810304A (zh) | 一种负载均衡方法、装置、设备和计算机存储介质 | |
EP3258653A1 (en) | Message pushing method and device | |
CN111966289B (zh) | 基于Kafka集群的分区优化方法和系统 | |
CN106656682A (zh) | 集群心跳检测方法、系统及装置 | |
CN107294767B (zh) | 一种直播网络传输故障监测方法及系统 | |
CN109189578B (zh) | 存储服务器分配方法、装置、管理服务器以及存储系统 | |
US20150381498A1 (en) | Network system and its load distribution method | |
CN105471938B (zh) | 服务器负载管理方法及装置 | |
CN109510730B (zh) | 分布式系统及其监控方法、装置、电子设备及存储介质 | |
WO2012051778A1 (zh) | 多媒体消息业务中实现网元业务切换的系统及方法 | |
CN111865667A (zh) | 网络连通性故障根因定位方法及装置 | |
CN116723154A (zh) | 一种基于负载均衡的路由分发方法及系统 | |
CN115665173A (zh) | 一种基于MQ的WebSocket通信方法、系统和存储介质 | |
CN112866394B (zh) | 一种负载均衡方法、装置、系统、计算机设备和存储介质 | |
CN112671602B (zh) | 边缘节点的数据处理方法、装置、系统、设备和存储介质 | |
CN102761582B (zh) | 对等网络中反馈式同侪选择方法与装置 | |
US20130282846A1 (en) | System and method for processing similar emails |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |