CN105490868A - 异地机房数据双向同步监控方法与系统 - Google Patents
异地机房数据双向同步监控方法与系统 Download PDFInfo
- Publication number
- CN105490868A CN105490868A CN201510795908.0A CN201510795908A CN105490868A CN 105490868 A CN105490868 A CN 105490868A CN 201510795908 A CN201510795908 A CN 201510795908A CN 105490868 A CN105490868 A CN 105490868A
- Authority
- CN
- China
- Prior art keywords
- monitoring
- strange land
- level
- machine room
- daily record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0852—Delays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种异地机房数据双向同步监控方法与系统,设置监控服务器于各个异地机房,监控服务器内加载有用于监控所述异地机房中已部署服务器的监控脚本,利用监控服务器对异地机房进行系统级监控、进程级监控、服务级监控以及日志级监控,当上述监控有任意一项表征异地机房数据双向同步异常时,生成异常情况报告,推送所述异常情况报告至用户。整个过程中,采用独立的监控服务器,确保数据处理、记录的独立性,并分别从系统级、进程级、服务级以及日志级四个方面进行监控,确保监控全面与可靠,实现对异地机房数据双向同步的全面与可靠监控。
Description
技术领域
本发明涉及数据同步技术领域,特别是涉及异地机房数据双向同步监控方法与系统。
背景技术
当前,在互联网IT领域,服务提供商为了保障线上服务,大多会在多个异地机房部署同一套系统,以备单个机房出现意外时,可继续对外正常提供服务。
这里就涉及到了异地机房的数据双向同步问题,现有的异地数据双向同步系统一般包含多个组件,如获取数据的组件、数据处理及传输组件、分布式协调组件、同步任务管理组件等,这些组件分布在异地,构成了一个分布式系统。
而对分布式系统的监控通常存在以下不足:(1)分布式系统包含多个组件使得监控很难做到全面;(2)某个组件出现变动时,监控系统需要跟着修改相应的监控部署。因此,为了保障整套服务正常运行,需要设计一种全面且可靠的监控方法。
发明内容
基于此,有必要针对现有分布式机房数据双向同步监控方式存在监控不全面且可靠性低的问题,提供一种全面且可靠的异地机房数据双向同步监控方法与系统。
一种异地机房数据双向同步监控方法,包括步骤:
设置监控服务器于各个异地机房,其中,所述监控服务器内加载有用于监控所述异地机房中已部署服务器的监控脚本;
所述监控服务器对所述异地机房进行系统级监控,获得系统级监控结果,其中,所述系统级监控包括主机存活监控、主机负载监控、CPU(中央处理器,CentralProcessingUnit)监控、MEMORY(可记忆性)监控、IO(输入输出,Input/Output)监控、SWAP(交换)监控、DISK(磁盘)监控及登录用户数量监控;
所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,获得进程级监控结果;
所述监控服务器对所述异地机房进行服务级监控,获得服务级监控结果,其中,所述服务级监控包括服务安全监控、异地机房数据双向同步服务工作状态监控、异地数据同步的延迟时间监控、异地数据同步量监控、异地数据SCN(系统修订号,SystemChangeNumber)更新超时监控和异地数据同步自动恢复监控;
所述监控服务器对所述异地机房进行日志级监控,获得日志级监控结果,其中,所述日志级监控包括系统的message日志监控、异地机房数据双向同步中各个组件的日志监控、数据库错误日志监控、定时任务日志监控、监控日志以及日志文件大小监控;
当所述系统级监控结果、所述进程级监控结果、所述服务级监控结果或所述日志级监控结果表征异地机房数据双向同步异常时,生成异常情况报告,推送所述异常情况报告至用户。
一种异地机房数据双向同步监控系统,包括:
设置模块,用于设置监控服务器于各个异地机房,其中,所述监控服务器内加载有用于监控所述异地机房中已部署服务器的监控脚本;
系统级监控模块,用于控制所述监控服务器对所述异地机房进行系统级监控,获得系统级监控结果,其中,所述系统级监控包括主机存活监控、主机负载监控、CPU监控、MEMORY监控、IO监控、SWAP监控、DISK监控及登录用户数量监控;
进程级监控模块,用于控制所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,获得进程级监控结果;
服务级监控模块,用于控制所述监控服务器对所述异地机房进行服务级监控,获得服务级监控结果,其中,所述服务级监控包括服务安全监控、异地机房数据双向同步服务工作状态监控、异地数据同步的延迟时间监控、异地数据同步量监控、异地数据SCN更新超时监控以及异地数据同步自动恢复监控;
日志级监控模块,用于控制所述监控服务器对所述异地机房进行日志级监控,获得日志级监控结果,其中,所述日志级监控包括系统的message日志监控、异地机房数据双向同步中各个组件的日志监控、数据库错误日志监控、定时任务日志监控、监控日志以及日志文件大小监控;
推送模块,用于当所述系统级监控结果、所述进程级监控结果、所述服务级监控结果或所述日志级监控结果表征异地机房数据双向同步异常时,生成异常情况报告,推送所述异常情况报告至用户。
本发明异地机房数据双向同步监控方法与系统,设置监控服务器于各个异地机房,监控服务器内加载有用于监控所述异地机房中已部署服务器的监控脚本,利用监控服务器对异地机房进行系统级监控、进程级监控、服务级监控以及日志级监控,当上述监控有任意一项表征异地机房数据双向同步异常时,生成异常情况报告,推送所述异常情况报告至用户。整个过程中,采用独立的监控服务器,确保数据处理、记录的独立性,并分别从系统级、进程级、服务级以及日志级四个方面进行监控,确保监控全面与可靠,实现对异地机房数据双向同步的全面与可靠监控。
附图说明
图1为本发明异地机房数据双向同步监控方法其中一个实施例的流程示意图;
图2为本发明异地机房数据双向同步监控系统其中一个实施例的结构示意图。
具体实施方式
如图1所示,一种异地机房数据双向同步监控方法,包括步骤:
S100:设置监控服务器于各个异地机房,其中,所述监控服务器内加载有用于监控所述异地机房中已部署服务器的监控脚本。
监控服务器是独立于整个异地机房数据双向同步系统的服务器,其用于整个异地机房数据双向同步过程,其数据记录、存储和处理均独立于整个异地机房数据双向同步系统,这样可以避免异地机房数据双向同步系统中已有服务器对其进行数据干扰,确保监控结果的准确与可靠。服务器的监控脚本可以采用目前常规的异地机房数据双向同步监控的脚本,优选的,可以采用GUI(图形用户界面,GraphicalUserInterface)对这些监控脚本进行合理部署。
S200:所述监控服务器对所述异地机房进行系统级监控,获得系统级监控结果,其中,所述系统级监控包括主机存活监控、主机负载监控、CPU监控、MEMORY监控、IO监控、SWAP监控、DISK监控及登录用户数量监控。
所述的系统级监控,包括监控主机存活、主机负载、CPU(中央处理器,CentralProcessingUnit)、MEMORY(可记忆性)、IO(输入输出,Input/Output)、SWAP(交换)、DISK(磁盘)及登录用户数量。这里的主机存活是指主机在局域网内网络正常,可以正常与其他主机进行相关通信。主机存活的监控非常重要,因为大多监控都部署在各个组件的自身服务器上,要使监控有效,首先必须保证服务器网络通畅。因此,利用步骤S100在多个异地机房设置监控服务器,监控异地机房中所有相关服务器的存活状态,以实现安全冗余。主机负载、CPU、MEMORY、IO、SWAP、DISK及登录用户数量的监控则直接部署在相关服务器上。
具体来说,主机存活监控是通过多次ping主机以确定服务器是否工作在网络内,如总共ping主机M次均未成功,则ping通比例为0,即可初步判断是系统故障或网络故障,如果ping通比例在0和100%之间,则主要排查网络,当ping通主机的比例小于设定的阈值时,则以短信和邮件的形式通知系统负责人去排查异常。主机存活监控也可依据其他方法进行,如ssh(安全壳协议,SecureShell)登录,检测特定端口等。
S300:所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,获得进程级监控结果。
所述的进程级监控,即监控异地机房数据双向同步中各个组件的进程存活状态。比如分布式协调组件进程,相关数据库进程等。进程监控主要通过捕捉进程存活的工具来实现,进程级监控也直接部署异地机房中相关服务器上。捕捉进程存活的工具的常用工具包括top、ps等系统工具。
S400:所述监控服务器对所述异地机房进行服务级监控,获得服务级监控结果,其中,所述服务级监控包括服务安全监控、异地机房数据双向同步服务工作状态监控、异地数据同步的延迟时间监控、异地数据同步量监控、异地数据SCN更新超时监控以及异地数据同步自动恢复监控。
所述的服务级监控,包括服务安全、异地机房数据双向同步服务工作状态、异地数据同步的延迟时间、异地数据同步量、异地数据SCN更新超时和异地数据同步自动恢复等。服务安全监控是通过脚本检查相关服务器的iptables防火墙设置,判断其是否在设计的服务最小安全区域内。如超出最小安全区域,则以短信和邮件的形式发送给系统负责人。异地机房数据双向同步服务工作状态主要包括挂起,定位或正常工作中状态,从分布式协调组件上直接获取数据双向同步服务的状态。由于分布式协调组件上通常记录了各个方向数据同步状态,所以可以充分利用分布式协调组件上记录的信息,如同步对应的通道ID值及同步方向来确定其同步是否正常。异地数据同步的延迟时间是指数据从源库写入到通过异地数据同步系统写出到目标库的时间差,当延迟时间超过指定的阈值时,则以短信和邮件的形式将具体的延迟详情通知系统负责人。异地数据同步量是指各个同步方向中各个同步类型的数据同步量,可以依据同步任务管理组件中的统计功能个性化统计出数据同步量及整套系统的数据增量,当统计的结果超过设定的阈值时,以短信和邮件的形式通知系统负责人。异地数据SCN更新超时是指最后一次SCN的更新时间与当前时间的差值超过了设定的阈值,当出现异地数据SCN更新超时情况时,将具体的超时时间等详情以短信和邮件的形式发送给系统负责人。异地数据同步自动恢复主要是针对网络异常尝试的自动恢复,以减少人肉运维成本,当监控到异地数据同步工作状态异常时,以短信和邮件的形式通知系统负责人,同时触发自动恢复程序,自动恢复程序首先会对监控项进行检查确认,如确定是指定的异常类型,则开启自动恢复,加入自动恢复队列,重启同步,当重启同步结束后,再次检查监控项,如恢复正常,则以短信和邮件的形式通知系统负责人服务已恢复正常。
S500:所述监控服务器对所述异地机房进行日志级监控,获得日志级监控结果,其中,所述日志级监控包括系统的message日志监控、异地机房数据双向同步中各个组件的日志监控、数据库错误日志监控、定时任务日志监控、监控日志以及日志文件大小监控。
所述的日志级监控,包括系统的message日志、异地机房数据双向同步中各个组件的日志、数据库错误日志、定时任务日志、监控日志及各种日志文件大小等。系统的message日志、异地机房数据双向同步中各个组件的日志和数据库错误日志监控是为了方便及时定位异地数据同步的异常。定时任务日志和监控日志是为了保障监控的有效可靠性。各种日志文件大小的监控是对整个监控方法的一种冗余补充,可以在一定程度上发现潜在的危险。
S600:当所述系统级监控结果、所述进程级监控结果、所述服务级监控结果或所述日志级监控结果表征异地机房数据双向同步异常时,生成异常情况报告,推送所述异常情况报告至用户。
当所述系统级监控结果、所述进程级监控结果、所述服务级监控结果或所述日志级监控结果中任意一项表征异地机房数据双向同步异常时,直接生成异常情况报告,推送异常情况报告至用户。监控脚本中产生的各种文件可以以隐藏文件的形式存在,即文件名以点开头,确保数据的安全。另外所述的推送方式可以采用上述的短信和/或邮件方式。
本发明异地机房数据双向同步监控方法,设置监控服务器于各个异地机房,监控服务器内加载有用于监控所述异地机房中已部署服务器的监控脚本,利用监控服务器对异地机房进行系统级监控、进程级监控、服务级监控以及日志级监控,当上述监控有任意一项表征异地机房数据双向同步异常时,生成异常情况报告,推送所述异常情况报告至用户。整个过程中,采用独立的监控服务器,确保数据处理、记录的独立性,并分别从系统级、进程级、服务级以及日志级四个方面进行监控,确保监控全面与可靠,实现对异地机房数据双向同步的全面与可靠监控。
在其中一个实施例中,所述监控服务器对所述异地机房进行系统级监控,获得系统级监控结果的步骤具体包括:
所述监控服务器对所述异地机房进行系统级监控,并对所述系统级监控中的监控指标设置第一监控开关,获得系统级监控结果;
所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,获得进程级监控结果的步骤具体包括:
所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,并对所述进程级监控中的监控指标设置第二监控开关,获得进程级监控结果。
在系统级监控和进程级监控的方法上,为每个监控指标设置了监控开关,对于不同使用用途的服务器可以使用同一套脚本,只需要指定对应的监控开关即可。比如在负责数据处理和传输的组件及负责分布式协调的组件的服务器上部署同一套监控脚本,差别只在于对应的监控开关值不一样。需要指出的是上述第一监控开关和第二监控开关仅用于区分描述,并不对其具体参数进行限定,第一监控开关可以与第二监控开关相同,第一监控开关也可以与第二监控开关不同。
在其中一个实施例中,所述监控脚本加载于所述监控服务器的家目录。
家目录是存放root以外的其他所有用户的用户文件目录,监控脚本放在专用监控用户的家目录下,而非监控用户一般没有权限切换到监控用户家目录,这在一定程度上提高了监控脚本的安全指数。
在其中一个实施例中,所述设置监控服务器于各个异地机房的步骤之后还包括:
设置监控时间间隔。
在监控时间间隔上,对不同监控指标可以设置不同的监控时间间隔。比如机器的监控指标A设置为每隔1分钟监控一次,而机器的监控指标B设置为每隔2分钟监控一次,这样灵活地控制了各个监控指标的监控频率。
在其中一个实施例中,所述设置监控服务器于各个异地机房的步骤具体包括:
设置监控服务器于各个异地机房,并采用GUI界面对所述监控脚本进行部署。
在监控部署上,采用GUI界面实现自动化部署,GUI界面和相关监控脚本均放在监控服务器上,对于参数可变的监控脚本,通过GUI界面传参,可以将合适的脚本自动部署到指定服务器的指定目录下。对于不带可变参数的脚本,可以通过GUI界面进行批量自动化部署。
如图2所示,一种异地机房数据双向同步监控系统,包括:
设置模块100,用于设置监控服务器于各个异地机房,其中,所述监控服务器内加载有用于监控所述异地机房中已部署服务器的监控脚本;
系统级监控模块200,用于控制所述监控服务器对所述异地机房进行系统级监控,获得系统级监控结果,其中,所述系统级监控包括主机存活监控、主机负载监控、CPU监控、MEMORY监控、IO监控、SWAP监控、DISK监控及登录用户数量监控;
进程级监控模块300,用于控制所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,获得进程级监控结果;
服务级监控模块400,用于控制所述监控服务器对所述异地机房进行服务级监控,获得服务级监控结果,其中,所述服务级监控包括服务安全监控、异地机房数据双向同步服务工作状态监控、异地数据同步的延迟时间监控、异地数据同步量监控、异地数据SCN更新超时监控以及异地数据同步自动恢复监控;
日志级监控模块500,用于控制所述监控服务器对所述异地机房进行日志级监控,获得日志级监控结果,其中,所述日志级监控包括系统的message日志监控、异地机房数据双向同步中各个组件的日志监控、数据库错误日志监控、定时任务日志监控、监控日志以及日志文件大小监控;
推送模块600,用于当所述系统级监控结果、所述进程级监控结果、所述服务级监控结果或所述日志级监控结果表征异地机房数据双向同步异常时,生成异常情况报告,推送所述异常情况报告至用户。
本发明异地机房数据双向同步监控系统,设置模块100设置监控服务器于各个异地机房,监控服务器内加载有用于监控所述异地机房中已部署服务器的监控脚本,系统级监控模块200、进程级监控模块300、服务级监控模块400以及日志级监控模块500分别利用监控服务器对异地机房进行系统级监控、进程级监控、服务级监控以及日志级监控,推送模块600当上述监控有任意一项表征异地机房数据双向同步异常时,生成异常情况报告,推送所述异常情况报告至用户。整个过程中,采用独立的监控服务器,确保数据处理、记录的独立性,并分别从系统级、进程级、服务级以及日志级四个方面进行监控,确保监控全面与可靠,实现对异地机房数据双向同步的全面与可靠监控。
在其中一个实施例中,所述系统级监控模块200具体用于控制所述监控服务器对所述异地机房进行系统级监控,并对所述系统级监控中的监控指标设置第一监控开关,获得系统级监控结果;
所述进程级监控模块300具体用于控制所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,并对所述进程级监控中的监控指标设置第二监控开关,获得进程级监控结果。
在其中一个实施例中,所述监控脚本加载于所述监控服务器的家目录。
在其中一个实施例中,所述异地机房数据双向同步监控系统还包括:
监控时间间隔设置模块,用于设置监控时间间隔。
在其中一个实施例中,所述设置模块100具体用于设置监控服务器于各个异地机房,并采用GUI界面对所述监控脚本进行部署。
为了更进一步详细解释本发明异地机房数据双向同步监控方法与系统的技术方案及其带来的有益效果,下面将采用实例详细说明。
在异地机房数据双向同步的运行环境中整个运行环境分为三部分,数据库存储实例集群、双向同步控制组件集群和监控服务器集群。这三部分在各个异地机房都有部署,且一一对应。数据库存储实例集群包括多个数据库实例。双向同步控制集群包括多个同步组件。例如,访问机房A的用户更新的数据可以同步到对应的机房B的数据库中;同样,访问机房B的用户更新的数据也会同步到对应的机房A的数据库中。各机房中的数据保持一致。
双向同步控制组件集群包含负责获取数据,数据处理及传输的服务器集群,负责分布式协调的服务器集群,负责同步任务管理的服务器集群。数据库存储实例集群是一个水平切分的分布式数据库集群,此运行环境单个机房有N个数据库实例,这样就有N对双向同步的任务。每个集群都有冗余,以防意外发生。
监控脚本部署在监控服务器或运行环境中的各个主机上。其中,主机存活、异地机房数据同步量、异地同步状态,异地同步延迟时间,SCN更新超时的监控及异常自动恢复等部署在专用服务器上。而系统级监控中的CPU、MEMORY、IO、SWAP以及DISK,日志级监控中的同步组件日志、数据库日志、同步任务日志、监控日志和进程级监控如同步组件进程,数据库进程等部署在各自相关的服务器上。
监控脚本均部署在对应服务器的定时任务中。监控脚本均部署在专用监控用户家目录下,非专用监控用户一般没有权限切换到监控用户家目录,这在一定程度上提高了监控脚本的安全指数。监控脚本中产生的各种文件以隐藏文件的形式存在,即文件名以点开头。如监控日志则以点开头形成隐藏文件。当出现异常,触发短信及邮件告警时,记录短信及邮件发送情况,如短信及邮件发送时间,发送是否成功等。以日志文件的形式记录,日志文件名也以点开头。
系统级监控中的主机负载、CPU、MEMORY、IO、SWAP、DISK、登录用户数量和进程级监控部署在所有相关服务器上,包括监控服务器。且所有这些监控指标都写在同一个脚本中,主机负载、CPU、MEMORY、IO、SWAP、DISK和登录用户数量这些指标是每台服务器都需要监控的,所以它们的监控开关都设置为1,而进程级监控中需要根据每台服务器的个性服务设置不同的开关,比如在分布式协调组件服务器中,在进程级监控上,就只需要打开分布式协调组件的进程监控开关,其他组件的进程开关需关闭。另外,不同监控指标的监控频率可以个性化设置,比如整个脚本执行频率是每N分钟一次,但在脚本中可以控制磁盘的监控离上次监控时间至少间隔M分钟,这样磁盘监控的频率就变成了至少隔M分钟监控一次。这样使得监控频率可以灵活控制。
主机存活监控部署在监控服务器上,所有监控服务器和运行环境中的主机服务器都是监控对象,监控频率为每N分钟一次,主机存活监控采用ping主机的方式,当完全ping不通主机时,可初步判定主机发生系统故障或网络异常,需及时处理。当部分ping不通主机,即出现丢包现象时,需重点排查网络异常。当丢包率达到阈值时,以短信和邮件的形式通知系统负责人,以及时排查故障。只有当两个机房的监控服务器集群同时失效时,主机存活监控才失效。这大大提高了监控的可靠性和冗余性。
服务安全监控部署在监控服务器上,服务器的防火墙设置,IP鉴权,各个应用服务是否由指定用户启动等都是监控对象。设计有效的最小安全区域,当超出安全区域范围时,通知系统负责人及时关注并更新。监控频率为每M分钟一次。
异地机房数据双向同步服务工作状态的监控也部署在监控服务器上,它不依赖于异地机房数据双向同步各个组件的异常日志,而是与分布式协调组件交互直接获取服务状态值,如挂起状态,定位中状态,正常工作中状态等。服务级监控频率为每N分钟一次。
异地数据同步延迟时间的监控也是根据同步任务管理组件中的统计功能,将计算出的同步延迟时间入库,通过查询数据库以监控延迟时间是否超过设定的阈值。异地数据同步延迟时间的监控也部署在监控服务器上,监控频率为每M分钟一次。
异地机房的数据同步量及数据增量是根据同步任务管理组件中的统计功能,进行个性化统计,比如统计每N分钟各个数据库实例的同步量,将统计得到的值入库,通过直接查询数据库可以监控到同步量是否超过了设定的阈值。因此,可以在监控服务器上部署一个专门用于统计同步量的数据库实例,并对其统计的结果进行监控。数据同步量的监控也部署在监控服务器上。监控频率为每M分钟一次。
异地数据SCN更新超时的监控是通过对比当前时间点与SCN最新更新的时间点的差值来实现,SCN最新更新的时间点可以通过分布式协调组件获取,当异地数据SCN更新超时达到指定的阈值时,通知系统负责人。异地数据SCN更新超时的监控也部署在专用服务器上,监控频率为每M分钟一次。
异地数据同步自动恢复主要依赖于同步任务管理组件,当监测到指定同步异常时,触发异地数据同步自动恢复程序,即通过同步任务管理组件完成数据同步重启。重启同步结束后,需再次检查监控项,如恢复正常,则以短信和邮件的形式通知系统负责人。如重启失败,也需将失败详情通知系统负责人。异地数据同步自动恢复程序部署在监控服务器上。
日志级监控包括监控系统的message日志、异地机房数据双向同步中各个组件的日志、数据库错误日志、定时任务日志、监控日志及各种日志文件大小等,日志级监控部署在相关服务所在的服务器上。异常日志是通过抓取异常关键字进行监控,并将抓取到的异常关键字的记录条数记录到一个指定文件中。当抓取到新产生的异常关键字时,将其翻译为易理解的异常描述发送给系统负责人。日志级监控频率为每N分钟一次,其触发告警的条件是某次监控抓取到异常关键字的记录条数大于上次监控抓取到的异常关键字的记录条数,如满足条件则以短信和邮件的形式通知系统负责人近期有新产生的异常情况出现。同时将新的异常信息记录条数记录到指定文件中。日志文件大小的阈值是根据监控经分管理推出的经验值来确定。
系统负载饱和度的计算方法可以依据系统CPU、IO、MEMORY以及数据同步量指标进行设计,当达到阈值时,以短信和邮件的形式将系统负载饱和度的状态通知系统负责人,方便系统负责人进行系统扩展。
监控管理平台中的监控经分管理,指标管理,短信邮件管理等为整个监控方法不断调优打下基础。如监控经分管理中记录的各种类型的告警详情,方便系统管理员对相关系统的异常信息进行统计,寻找异常规律,发现潜在的异常风险。如日志文件按每天固定时间归档,则正常服务情况下每天的日志文件大小有一定的范围,系统管理员则可以依据这个范围设计日志大小的告警阈值。
为提高监控部署的便利性,通过GUI界面实现自动化监控部署。对于参数可变的监控,如系统级和进程级监控脚本中的监控开关参数,通过GUI界面传参,将合适的脚本自动推送到指定服务器的指定目录下,对于不带可变参数的脚本,如异地机房数据双向同步组件的日志级监控,则通过GUI界面进行批量自动化部署。
当添加了新的异地机房数据同步组件,如获取数据组件,数据处理及传输组件时,此时服务级监控不需要调整。可以通过GUI界面部署对应的系统级监控、进程级监控以及日志级监控。
当添加了新的数据库实例用于异地机房数据双向同步时,在服务级监控上,只需要添加新数据库实例双向同步的同步状态和同步量的监控。同时部署对应的系统级、进程级以及日志级监控。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种异地机房数据双向同步监控方法,其特征在于,包括步骤:
设置监控服务器于各个异地机房,其中,所述监控服务器内加载有用于监控所述异地机房中已部署服务器的监控脚本;
所述监控服务器对所述异地机房进行系统级监控,获得系统级监控结果,其中,所述系统级监控包括主机存活监控、主机负载监控、CPU监控、MEMORY监控、IO监控、SWAP监控、DISK监控及登录用户数量监控;
所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,获得进程级监控结果;
所述监控服务器对所述异地机房进行服务级监控,获得服务级监控结果,其中,所述服务级监控包括服务安全监控、异地机房数据双向同步服务工作状态监控、异地数据同步的延迟时间监控、异地数据同步量监控、异地数据SCN更新超时监控以及异地数据同步自动恢复监控;
所述监控服务器对所述异地机房进行日志级监控,获得日志级监控结果,其中,所述日志级监控包括系统的message日志监控、异地机房数据双向同步中各个组件的日志监控、数据库错误日志监控、定时任务日志监控、监控日志以及日志文件大小监控;
当所述系统级监控结果、所述进程级监控结果、所述服务级监控结果或所述日志级监控结果表征异地机房数据双向同步异常时,生成异常情况报告,推送所述异常情况报告至用户。
2.根据权利要求1所述的异地机房数据双向同步监控方法,其特征在于,
所述监控服务器对所述异地机房进行系统级监控,获得系统级监控结果的步骤具体包括:
所述监控服务器对所述异地机房进行系统级监控,并对所述系统级监控中的监控指标设置第一监控开关,获得系统级监控结果;
所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,获得进程级监控结果的步骤具体包括:
所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,并对所述进程级监控中的监控指标设置第二监控开关,获得进程级监控结果。
3.根据权利要求1或2所述的异地机房数据双向同步监控方法,其特征在于,所述监控脚本加载于所述监控服务器的家目录。
4.根据权利要求1或2所述的异地机房数据双向同步监控方法,其特征在于,所述设置监控服务器于各个异地机房的步骤之后还包括:
设置监控时间间隔。
5.根据权利要求1或2所述的异地机房数据双向同步监控方法,其特征在于,所述设置监控服务器于各个异地机房的步骤具体包括:
设置监控服务器于各个异地机房,并采用GUI界面对所述监控脚本进行部署。
6.一种异地机房数据双向同步监控系统,其特征在于,包括:
设置模块,用于设置监控服务器于各个异地机房,其中,所述监控服务器内加载有用于监控所述异地机房中已部署服务器的监控脚本;
系统级监控模块,用于控制所述监控服务器对所述异地机房进行系统级监控,获得系统级监控结果,其中,所述系统级监控包括主机存活监控、主机负载监控、CPU监控、MEMORY监控、IO监控、SWAP监控、DISK监控及登录用户数量监控;
进程级监控模块,用于控制所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,获得进程级监控结果;
服务级监控模块,用于控制所述监控服务器对所述异地机房进行服务级监控,获得服务级监控结果,其中,所述服务级监控包括服务安全监控、异地机房数据双向同步服务工作状态监控、异地数据同步的延迟时间监控、异地数据同步量监控、异地数据SCN更新超时监控以及异地数据同步自动恢复监控;
日志级监控模块,用于控制所述监控服务器对所述异地机房进行日志级监控,获得日志级监控结果,其中,所述日志级监控包括系统的message日志监控、异地机房数据双向同步中各个组件的日志监控、数据库错误日志监控、定时任务日志监控、监控日志以及日志文件大小监控;
推送模块,用于当所述系统级监控结果、所述进程级监控结果、所述服务级监控结果或所述日志级监控结果表征异地机房数据双向同步异常时,生成异常情况报告,推送所述异常情况报告至用户。
7.根据权利要求6所述的异地机房数据双向同步监控系统,其特征在于,
所述系统级监控模块具体用于控制所述监控服务器对所述异地机房进行系统级监控,并对所述系统级监控中的监控指标设置第一监控开关,获得系统级监控结果;
所述进程级监控模块具体用于控制所述监控服务器通过捕捉进程存活的工具对所述异地机房进行进程级监控,并对所述进程级监控中的监控指标设置第二监控开关,获得进程级监控结果。
8.根据权利要求6或7所述的异地机房数据双向同步监控系统,其特征在于,所述监控脚本加载于所述监控服务器的家目录。
9.根据权利要求6或7所述的异地机房数据双向同步监控系统,其特征在于,还包括:
监控时间间隔设置模块,用于设置监控时间间隔。
10.根据权利要求6或7所述的异地机房数据双向同步监控方法,其特征在于,所述设置模块具体用于设置监控服务器于各个异地机房,并采用GUI界面对所述监控脚本进行部署。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510795908.0A CN105490868B (zh) | 2015-11-17 | 2015-11-17 | 异地机房数据双向同步监控方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510795908.0A CN105490868B (zh) | 2015-11-17 | 2015-11-17 | 异地机房数据双向同步监控方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105490868A true CN105490868A (zh) | 2016-04-13 |
CN105490868B CN105490868B (zh) | 2019-11-01 |
Family
ID=55677609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510795908.0A Active CN105490868B (zh) | 2015-11-17 | 2015-11-17 | 异地机房数据双向同步监控方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105490868B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156318A (zh) * | 2016-07-05 | 2016-11-23 | 武汉斗鱼网络科技有限公司 | 一种实现多节点数据库高可用的系统及方法 |
CN106341454A (zh) * | 2016-08-23 | 2017-01-18 | 世纪龙信息网络有限责任公司 | 跨机房多活分布式数据库管理系统和方法 |
CN106682141A (zh) * | 2016-12-20 | 2017-05-17 | 华北计算技术研究所(中国电子科技集团公司第十五研究所) | 一种基于业务操作日志的数据同步方法 |
CN107911410A (zh) * | 2017-10-17 | 2018-04-13 | 珠海金山网络游戏科技有限公司 | 分布式服务进程资源耗用统计方法和装置 |
CN109040277A (zh) * | 2018-08-20 | 2018-12-18 | 北京奇虎科技有限公司 | 一种服务器的远程监控方法及装置 |
CN109413162A (zh) * | 2018-10-08 | 2019-03-01 | 郑州云海信息技术有限公司 | 一种基于分布式存储的udp上报服务控制方法及系统 |
CN109660426A (zh) * | 2018-12-14 | 2019-04-19 | 泰康保险集团股份有限公司 | 监控方法及系统、计算机可读介质和电子设备 |
CN110659256A (zh) * | 2019-09-30 | 2020-01-07 | 掌阅科技股份有限公司 | 多机房同步方法、计算设备及计算机存储介质 |
CN110674156A (zh) * | 2019-09-27 | 2020-01-10 | 掌阅科技股份有限公司 | 多机房数据的同步方法、计算设备及计算机存储介质 |
CN111338882A (zh) * | 2018-12-18 | 2020-06-26 | 北京京东尚科信息技术有限公司 | 数据监控方法、装置、介质及电子设备 |
US11789752B1 (en) | 2018-04-11 | 2023-10-17 | Tech Heights Llc | Dynamically-updatable deep transactional monitoring systems and methods |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6138249A (en) * | 1997-12-11 | 2000-10-24 | Emc Corporation | Method and apparatus for monitoring computer systems during manufacturing, testing and in the field |
CN1512363A (zh) * | 2002-12-31 | 2004-07-14 | 联想(北京)有限公司 | 提高商务机群可服务性的方法 |
CN101252471A (zh) * | 2008-03-20 | 2008-08-27 | 中兴通讯股份有限公司 | 一种分布式自动化测试系统及其方法 |
CN101605056A (zh) * | 2009-06-16 | 2009-12-16 | 中兴通讯股份有限公司 | 一种j2ee服务器监控装置及采用该装置的监控方法 |
CN104639352A (zh) * | 2013-11-12 | 2015-05-20 | 株式会社日立制作所 | 监控装置以及监控方法 |
-
2015
- 2015-11-17 CN CN201510795908.0A patent/CN105490868B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6138249A (en) * | 1997-12-11 | 2000-10-24 | Emc Corporation | Method and apparatus for monitoring computer systems during manufacturing, testing and in the field |
CN1512363A (zh) * | 2002-12-31 | 2004-07-14 | 联想(北京)有限公司 | 提高商务机群可服务性的方法 |
CN101252471A (zh) * | 2008-03-20 | 2008-08-27 | 中兴通讯股份有限公司 | 一种分布式自动化测试系统及其方法 |
CN101605056A (zh) * | 2009-06-16 | 2009-12-16 | 中兴通讯股份有限公司 | 一种j2ee服务器监控装置及采用该装置的监控方法 |
CN104639352A (zh) * | 2013-11-12 | 2015-05-20 | 株式会社日立制作所 | 监控装置以及监控方法 |
Non-Patent Citations (1)
Title |
---|
王浩: ""基于嵌入式以太网的机房远程监控系统"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156318B (zh) * | 2016-07-05 | 2022-08-16 | 武汉斗鱼网络科技有限公司 | 一种实现多节点数据库高可用的系统及方法 |
CN106156318A (zh) * | 2016-07-05 | 2016-11-23 | 武汉斗鱼网络科技有限公司 | 一种实现多节点数据库高可用的系统及方法 |
CN106341454A (zh) * | 2016-08-23 | 2017-01-18 | 世纪龙信息网络有限责任公司 | 跨机房多活分布式数据库管理系统和方法 |
CN106341454B (zh) * | 2016-08-23 | 2019-09-24 | 世纪龙信息网络有限责任公司 | 跨机房多活分布式数据库管理系统和方法 |
CN106682141A (zh) * | 2016-12-20 | 2017-05-17 | 华北计算技术研究所(中国电子科技集团公司第十五研究所) | 一种基于业务操作日志的数据同步方法 |
CN106682141B (zh) * | 2016-12-20 | 2022-02-11 | 华北计算技术研究所(中国电子科技集团公司第十五研究所) | 一种基于业务操作日志的数据同步方法 |
CN107911410A (zh) * | 2017-10-17 | 2018-04-13 | 珠海金山网络游戏科技有限公司 | 分布式服务进程资源耗用统计方法和装置 |
US11789752B1 (en) | 2018-04-11 | 2023-10-17 | Tech Heights Llc | Dynamically-updatable deep transactional monitoring systems and methods |
CN109040277A (zh) * | 2018-08-20 | 2018-12-18 | 北京奇虎科技有限公司 | 一种服务器的远程监控方法及装置 |
CN109413162A (zh) * | 2018-10-08 | 2019-03-01 | 郑州云海信息技术有限公司 | 一种基于分布式存储的udp上报服务控制方法及系统 |
CN109660426A (zh) * | 2018-12-14 | 2019-04-19 | 泰康保险集团股份有限公司 | 监控方法及系统、计算机可读介质和电子设备 |
CN111338882A (zh) * | 2018-12-18 | 2020-06-26 | 北京京东尚科信息技术有限公司 | 数据监控方法、装置、介质及电子设备 |
CN110674156B (zh) * | 2019-09-27 | 2020-06-26 | 掌阅科技股份有限公司 | 多机房数据的同步方法、计算设备及计算机存储介质 |
CN110674156A (zh) * | 2019-09-27 | 2020-01-10 | 掌阅科技股份有限公司 | 多机房数据的同步方法、计算设备及计算机存储介质 |
CN110659256A (zh) * | 2019-09-30 | 2020-01-07 | 掌阅科技股份有限公司 | 多机房同步方法、计算设备及计算机存储介质 |
CN110659256B (zh) * | 2019-09-30 | 2021-02-26 | 掌阅科技股份有限公司 | 多机房同步方法、计算设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105490868B (zh) | 2019-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105490868A (zh) | 异地机房数据双向同步监控方法与系统 | |
CN109495308B (zh) | 一种基于管理信息系统的自动化运维系统 | |
US7917536B2 (en) | Systems, methods and computer program products for managing a plurality of remotely located data storage systems | |
CN107632918B (zh) | 计算存储设备的监控系统及方法 | |
CN105808394B (zh) | 一种服务器自愈的方法和装置 | |
US7523184B2 (en) | System and method for synchronizing the configuration of distributed network management applications | |
EP1759303A2 (en) | Agent-less systems, methods and computer program products for managing a plurality of remotely located data storage systems | |
CA2488044C (en) | System and method for synchronizing the configuration of distributed network management applications | |
CN104252500B (zh) | 一种数据库管理平台的故障修复方法和装置 | |
CN112817791B (zh) | 一种工作面集群开采状态的移动端监控方法 | |
US9684574B2 (en) | Method and system for implementing remote disaster recovery switching of service delivery platform | |
CN102945195A (zh) | 一种基于SQLite数据库的主备冗余复制方法 | |
CN105159964A (zh) | 一种日志监控方法及系统 | |
CN106936858A (zh) | 一种云平台监控系统及方法 | |
CN111858176A (zh) | 一种远程监控故障自愈系统和方法 | |
WO2016188100A1 (zh) | 信息系统故障场景信息收集方法及系统 | |
CN106339278A (zh) | 一种网络文件系统的数据备份及恢复方法 | |
Veeraraghavan et al. | Maelstrom: Mitigating datacenter-level disasters by draining interdependent traffic safely and efficiently | |
CN108804248B (zh) | 一种卷实时保护数据的自动校验方法 | |
US20030120663A1 (en) | System and method for removing rules from a data administration system | |
CN115658420A (zh) | 数据库监控方法及系统 | |
CN109002478A (zh) | 分布式文件系统的故障处理方法及相关设备 | |
KR20150124653A (ko) | 프로세스 검증 기능이 구비된 전력 계통 감시 및 제어 시스템 | |
CN209821633U (zh) | 油田控制系统的CCR-FARs结构 | |
CN112882892B (zh) | 数据处理方法和装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220217 Address after: Room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai 200040 Patentee after: Tianyi Digital Life Technology Co.,Ltd. Address before: 1 / F and 2 / F, East Garden, Huatian International Plaza, 211 Longkou Middle Road, Tianhe District, Guangzhou, Guangdong 510630 Patentee before: Century Dragon Information Network Co.,Ltd. |