CN106911519B - 一种数据采集监控方法及装置 - Google Patents
一种数据采集监控方法及装置 Download PDFInfo
- Publication number
- CN106911519B CN106911519B CN201710229043.0A CN201710229043A CN106911519B CN 106911519 B CN106911519 B CN 106911519B CN 201710229043 A CN201710229043 A CN 201710229043A CN 106911519 B CN106911519 B CN 106911519B
- Authority
- CN
- China
- Prior art keywords
- type
- data
- slave server
- file
- acquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明实施例中公开了一种数据采集监控方法及装置,获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,当所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。基于心跳数据,能够对业务日志数据进行分布式采集过程中发生的故障快速发现并准确定位。
Description
技术领域
本发明涉及数据采集技术领域,具体涉及一种数据采集监控方法及装置。
背景技术
随着互联网的发展,业务量急剧增长,提供服务的服务器集群规模越来越庞大,提供的服务类型也越来越复杂。这种大数据背景下的业务日志数据采集的可靠性显得越来越重要。
目前主流的业务日志数据采集系统是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的Flume系统。目前,基于Flume系统的业务日志数据采集流程具体如下:首先,采用Flume系统对业务日志数据进行分布式采集,然后,将采集的业务日志数据汇聚到Kafka中,最后,将采集的业务日志数据持久化存储到HDFS(HadoopDistributed File System,Hadoop分布式文件系统)中。
但是,在大数据背景下,需要采集的业务日志数据分布于众多服务器上,单台服务器又有多种业务日志数据需要分别采集,导致采集任务数量多。而采用Flume系统对业务日志数据进行分布式采集过程中,由于Flume系统缺乏可靠的数据采集监控技术,导致对业务日志数据进行分布式采集过程中发生的故障无法快速发现并准确定位。
发明内容
有鉴于此,本发明实施例提供一种数据采集监控方法及装置,能够对业务日志数据进行分布式采集过程中发生的故障快速发现并准确定位。
为实现上述目的,本发明实施例提供如下技术方案:
一种数据采集监控方法,包括:
获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;
根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,得到第一判断结果;
当所述第一判断结果表示所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。
优选的,所述根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,包括:
当达到预设采集时间阈值时,所述文件已采集完成的数据量信息小于所述第一类型的从属服务器应当采集的文件的数据量信息,则判断所述第一类型的从属服务器对于所述文件的采集过程发生故障。
优选的,所述方法还包括:
获取所述第一类型的从属服务器最后一次上报心跳数据的时间;
判断在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第一类型的从属服务器上报的注销请求或所述第一类型的从属服务器上报的心跳数据;
当在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第一类型的从属服务器上报的心跳数据,则确定所述第一类型的从属服务器处于异常状态。
优选的,所述方法还包括:
获取所述第二类型的从属服务器最后一次上报心跳数据的时间;
判断在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第二类型的从属服务器上报的注销请求或所述第二类型的从属服务器上报的心跳数据;
当在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第二类型的从属服务器上报的心跳数据,则确定所述第二类型的从属服务器处于异常状态。
优选的,所述方法还包括:
获取所述第一类型的从属服务器上报的第一采集数据条数;
获取所述第二类型的从属服务器上报的第二采集数据条数;
根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,得到第二判断结果;
当所述第二判断结果表示所述第二类型的从属服务器的数据持久化存储操作发生故障时,进行报警。
优选的,所述根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,包括:
当所述第一采集数据条数与所述第二采集数据条数不相等时,则判断所述第二类型的从属服务器的数据持久化存储操作发生故障。
一种数据采集监控装置,包括:
第一获取模块,用于获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;
第一判断模块,用于根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,得到第一判断结果;
故障定位模块,用于当所述第一判断结果表示所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。
优选的,所述第一判断模块具体用于:
当达到预设采集时间阈值时,所述文件已采集完成的数据量信息小于所述第一类型的从属服务器应当采集的文件的数据量信息,则判断所述第一类型的从属服务器对于所述文件的采集过程发生故障。
优选的,所述装置还包括:
第二获取模块,用于获取所述第一类型的从属服务器最后一次上报心跳数据的时间;
第二判断模块,用于判断在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第一类型的从属服务器上报的注销请求或所述第一类型的从属服务器上报的心跳数据;
第一状态确定模块,用于当在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第一类型的从属服务器上报的心跳数据,则确定所述第一类型的从属服务器处于异常状态。
优选的,所述装置还包括:
第三获取模块,用于获取所述第二类型的从属服务器最后一次上报心跳数据的时间;
第三判断模块,用于判断在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第二类型的从属服务器上报的注销请求或所述第二类型的从属服务器上报的心跳数据;
第二状态确定模块,用于当在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第二类型的从属服务器上报的心跳数据,则确定所述第二类型的从属服务器处于异常状态。
优选的,所述装置还包括:
第四获取模块,用于获取所述第一类型的从属服务器上报的第一采集数据条数,以及,获取所述第二类型的从属服务器上报的第二采集数据条数;
第四判断模块,用于根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,得到第二判断结果;
报警模块,用于当所述第二判断结果表示所述第二类型的从属服务器的数据持久化存储操作发生故障时,进行报警。
优选的,所述第四判断模块具体用于:
当所述第一采集数据条数与所述第二采集数据条数不相等时,则判断所述第二类型的从属服务器的数据持久化存储操作发生故障。
基于上述技术方案,本发明实施例中公开了一种数据采集监控方法及装置,获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,当所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。基于心跳数据,能够对业务日志数据进行分布式采集过程中发生的故障快速发现并准确定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据采集监控方法的流程示意图;
图2为本发明实施例提供的一种Master监控Source的状态的方法的流程示意图;
图3为本发明实施例提供的一种Master监控Sink的状态的方法的流程示意图;
图4为本发明实施例提供的一种判断Sink持久化存储操作是否发生故障的方法的流程示意图;
图5为本发明实施例提供的一种数据采集监控装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中的数据采集监控方法应用于基于Kafka的可监控的分布式数据采集系统,该系统采用Master/Slave(主服务器/从属服务器)结构,使用Kafka作为数据汇聚的中间节点,最终采用HDFS或其他可靠媒介对数据进行持久化存储。该系统中,Slave执行实际的采集任务,Slave按照采集功能的不同分为两种类型,其中,Source(第一类型的从属服务器)负责从各数据源服务器采集数据传输至Kafka;Sink(第二类型的从属服务器)负责从Kafka消费采集的数据汇聚后进行持久化存储。Master负责维护Slave的部署情况、监控Slave的采集任务执行情况等。
Slave启动时,需要先向Master注册自己被分配的任务的信息,注册需要上报的信息包括Slave所在的服务器IP,Slave的类型(Source/Sink),Slave的唯一ID,Slave执行的采集任务列表等。如果Slave支持动态配置采集任务,那么当所执行的采集任务发生变更的时候需要重新进行注册。相应的,Slave正常关闭时,需要向Master进行注销。注销需要上报Slave所在的服务器IP,Slave的唯一ID。
Slave向Master注册成功后,执行实际的采集任务。其中,Source按照任务的配置信息,将采集的数据汇聚到Kafka的指定Topic。Sink按照任务的配置信息,将Kafka的指定Topic的数据存储至可靠的存储介质(如,HDFS)中。
具体的,Source在采集数据时,需要对数据按时间分段(比如,以小时为单位对数据进行分段),并将数据所在的时间分段信息写入Kafka消息的Key中,将采集的数据实体写入Kafka消息的Value中。其中,Source对数据按时间分段的方法如下:如果文件名中有时间戳,可以以文件名为依据;如果文件名没有时间戳,可以以文件创建时间为依据;如果采集的是数据流,可以以接收到数据的时间为依据。Sink消费Kafka中的数据时,需要根据Kafka消息的Key中的时间分段信息,以小时为单位对数据进行处理,比如,每个小时建立独立的文件夹,并根据Kafka消息的Key中的时间分段信息,将属于不同时间段的数据写入到不同的文件夹中。
另外由于所采集的数据以原始格式存储于Kafka的Value之中,因此其他处理系统可以无需做任何改动,透明的消费Kafka中的数据。
Slave在执行实际的采集任务的过程中,还需要维护采集任务的执行情况,并作为心跳数据定期上报到Kafka的特定Topic中,等待Master拉取消费。Master通过消费Kafka中的Slave上报的心跳数据,即可监控Slave的采集任务执行情况。
图1为本发明实施例提供的一种数据采集监控方法的流程示意图,该方法由Master执行,具体的,该方法包括如下步骤:
步骤S10、获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息。
需要说明的是,第一类型的从属服务器在上报心跳数据之前,已经向Master成功注册,文件可以为业务日志,数据量信息可以为字节数和数据条目数。
步骤S20、根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,得到第一判断结果。
其中,当达到预设采集时间阈值时,所述文件已采集完成的数据量信息小于所述第一类型的从属服务器应当采集的文件的数据量信息,则判断所述第一类型的从属服务器对于所述文件的采集过程发生故障。当所述文件已采集完成的数据量信息与所述第一类型的从属服务器应当采集的文件的数据量信息相同时,则判断所述第一类型的从属服务器对于所述文件的采集过程未发生故障。
步骤S30、当所述第一判断结果表示所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。
具体来讲,假设所述第一类型的从属服务器应当采集的文件的数据量信息为100字节,当达到预设采集时间阈值时,所述文件已采集完成的数据量信息为50字节,则可判定所述第一判断结果表示所述第一类型的从属服务器对于所述文件的采集过程发生故障,且故障位置为所述文件的第51字节。
本发明实施例中公开的一种数据采集监控方法,获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,当所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。基于心跳数据,能够对业务日志数据进行分布式采集过程中发生的故障快速发现并准确定位。
进一步的,Master还可监控Slave的状态是否异常。具体的,图2示出了一种Master监控Source的状态的方法的流程示意图,该方法具体包括如下步骤:
步骤S100、获取所述第一类型的从属服务器最后一次上报心跳数据的时间。
需要说明的是,本发明实施例中的所述第一类型的从属服务器最后一次上报心跳数据的时间可以包含在所述第一类型的从属服务器上报的心跳数据中,Master在获取心跳数据之后,即可获知所述第一类型的从属服务器最后一次上报心跳数据的时间。
步骤S110、判断在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第一类型的从属服务器上报的注销请求或所述第一类型的从属服务器上报的心跳数据。
步骤S120、当在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第一类型的从属服务器上报的心跳数据,则确定所述第一类型的从属服务器处于异常状态。
图3示出了一种Master监控Sink的状态的方法的流程示意图,该方法具体包括如下步骤:
步骤S200、获取所述第二类型的从属服务器最后一次上报心跳数据的时间。
需要说明的是,第二类型的从属服务器在上报心跳数据之前,已经向Master成功注册。
步骤S210、判断在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第二类型的从属服务器上报的注销请求或所述第二类型的从属服务器上报的心跳数据。
步骤S220、当在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第二类型的从属服务器上报的心跳数据,则确定所述第二类型的从属服务器处于异常状态。
进一步的,Master通过比对Source以及Sink上报的采集数据条数,判断由Source汇聚到Kafka的数据,是否正常被Sink完成了持久化存储操作,精度可以达到每条数据。
具体的,图4示出了一种判断Sink持久化存储操作是否发生故障的方法的流程示意图,该方法包括如下步骤:
步骤S300、获取所述第一类型的从属服务器上报的第一采集数据条数。
步骤S310、获取所述第二类型的从属服务器上报的第二采集数据条数。
步骤S320、根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,得到第二判断结果。
其中,当所述第一采集数据条数与所述第二采集数据条数不相等时,则判断所述第二类型的从属服务器的数据持久化存储操作发生故障。
步骤S330、当所述第二判断结果表示所述第二类型的从属服务器的数据持久化存储操作发生故障时,进行报警。
其中,可以通过邮件、短信或其他任何用户定义的形式进行报警。
本发明实施例提供的数据采集监控方法,可以支持不同技术的采集终端,维护各终端的部署情况以及任务配置情况,大幅提高对采集流程是否出现问题的判断的准确性,并且可以快速定位问题发生所在的具体位置,采集的数据流和心跳数据同时依赖于Kafka,以此来准确判断采集终端是否存活,避免因为采集终端在可以正常连接Kafka,但其他某些链路异常导致的存活状态误判,而且,对日志格式、采集终端所用技术等无要求。
下面对本发明实施例提供的数据采集监控装置进行介绍,下文描述的数据采集监控装置可与上文数据采集监控方法相互对应参照。
图5为本发明实施例提供的数据采集监控装置的结构框图,该数据采集监控装置具体可以为Master,参照图5,该数据采集监控装置可以包括:
第一获取模块100,用于获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;
第一判断模块110,用于根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,得到第一判断结果;
其中,所述第一判断模块具体用于:当达到预设采集时间阈值时,所述文件已采集完成的数据量信息小于所述第一类型的从属服务器应当采集的文件的数据量信息,则判断所述第一类型的从属服务器对于所述文件的采集过程发生故障。
故障定位模块120,用于当所述第一判断结果表示所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。
优选的,所述装置还包括:
第二获取模块,用于获取所述第一类型的从属服务器最后一次上报心跳数据的时间;
第二判断模块,用于判断在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第一类型的从属服务器上报的注销请求或所述第一类型的从属服务器上报的心跳数据;
第一状态确定模块,用于当在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第一类型的从属服务器上报的心跳数据,则确定所述第一类型的从属服务器处于异常状态。
优选的,所述装置还包括:
第三获取模块,用于获取所述第二类型的从属服务器最后一次上报心跳数据的时间;
第三判断模块,用于判断在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第二类型的从属服务器上报的注销请求或所述第二类型的从属服务器上报的心跳数据;
第二状态确定模块,用于当在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第二类型的从属服务器上报的心跳数据,则确定所述第二类型的从属服务器处于异常状态。
优选的,所述装置还包括:
第四获取模块,用于获取所述第一类型的从属服务器上报的第一采集数据条数,以及,获取所述第二类型的从属服务器上报的第二采集数据条数;
第四判断模块,用于根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,得到第二判断结果;
报警模块,用于当所述第二判断结果表示所述第二类型的从属服务器的数据持久化存储操作发生故障时,进行报警。
优选的,所述第四判断模块具体用于:
当所述第一采集数据条数与所述第二采集数据条数不相等时,则判断所述第二类型的从属服务器的数据持久化存储操作发生故障。
综上所述:
本发明实施例中公开了一种数据采集监控方法及装置,获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,当所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。基于心跳数据,能够对业务日志数据进行分布式采集过程中发生的故障快速发现并准确定位。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据采集监控方法,其特征在于,应用于主服务器中,包括:
从中间节点获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;所述中间节点用于接收所述第一类型的从属服务器执行采集任务过程中从各数据源服务器采集的数据以及用于表征采集任务的执行情况的心跳数据;
根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,得到第一判断结果;
当所述第一判断结果表示所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据;
其中,当达到预设采集时间阈值时,所述文件已采集完成的数据量信息小于所述第一类型的从属服务器应当采集的文件的数据量信息,则判断所述第一类型的从属服务器对于所述文件的采集过程发生故障。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述第一类型的从属服务器最后一次上报心跳数据的时间;
判断在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第一类型的从属服务器上报的注销请求或所述第一类型的从属服务器上报的心跳数据;
当在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第一类型的从属服务器上报的心跳数据,则确定所述第一类型的从属服务器处于异常状态。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述第二类型的从属服务器最后一次上报心跳数据的时间;
判断在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第二类型的从属服务器上报的注销请求或所述第二类型的从属服务器上报的心跳数据;
当在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第二类型的从属服务器上报的心跳数据,则确定所述第二类型的从属服务器处于异常状态。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述第一类型的从属服务器上报的第一采集数据条数;
获取所述第二类型的从属服务器上报的第二采集数据条数;
根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,得到第二判断结果;
当所述第二判断结果表示所述第二类型的从属服务器的数据持久化存储操作发生故障时,进行报警。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,包括:
当所述第一采集数据条数与所述第二采集数据条数不相等时,则判断所述第二类型的从属服务器的数据持久化存储操作发生故障。
6.一种数据采集监控装置,其特征在于,应用于主服务器中,包括:
第一获取模块,用于从中间节点获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;所述中间节点用于接收所述第一类型的从属服务器执行采集任务过程中从各数据源服务器采集的数据以及用于表征采集任务的执行情况的心跳数据;
第一判断模块,用于根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,得到第一判断结果;
故障定位模块,用于当所述第一判断结果表示所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据;
其中,所述第一判断模块具体用于:
当达到预设采集时间阈值时,所述文件已采集完成的数据量信息小于所述第一类型的从属服务器应当采集的文件的数据量信息,则判断所述第一类型的从属服务器对于所述文件的采集过程发生故障。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取所述第一类型的从属服务器最后一次上报心跳数据的时间;
第二判断模块,用于判断在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第一类型的从属服务器上报的注销请求或所述第一类型的从属服务器上报的心跳数据;
第一状态确定模块,用于当在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第一类型的从属服务器上报的心跳数据,则确定所述第一类型的从属服务器处于异常状态。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取所述第二类型的从属服务器最后一次上报心跳数据的时间;
第三判断模块,用于判断在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第二类型的从属服务器上报的注销请求或所述第二类型的从属服务器上报的心跳数据;
第二状态确定模块,用于当在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第二类型的从属服务器上报的心跳数据,则确定所述第二类型的从属服务器处于异常状态。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第四获取模块,用于获取所述第一类型的从属服务器上报的第一采集数据条数,以及,获取所述第二类型的从属服务器上报的第二采集数据条数;
第四判断模块,用于根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,得到第二判断结果;
报警模块,用于当所述第二判断结果表示所述第二类型的从属服务器的数据持久化存储操作发生故障时,进行报警。
10.根据权利要求9所述的装置,其特征在于,所述第四判断模块具体用于:
当所述第一采集数据条数与所述第二采集数据条数不相等时,则判断所述第二类型的从属服务器的数据持久化存储操作发生故障。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710229043.0A CN106911519B (zh) | 2017-04-10 | 2017-04-10 | 一种数据采集监控方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710229043.0A CN106911519B (zh) | 2017-04-10 | 2017-04-10 | 一种数据采集监控方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106911519A CN106911519A (zh) | 2017-06-30 |
CN106911519B true CN106911519B (zh) | 2020-04-07 |
Family
ID=59195678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710229043.0A Active CN106911519B (zh) | 2017-04-10 | 2017-04-10 | 一种数据采集监控方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106911519B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108134702B (zh) * | 2017-12-26 | 2021-01-01 | 北京科来数据分析有限公司 | 一种数据采集器故障解决方法 |
CN108846012A (zh) * | 2018-05-04 | 2018-11-20 | 中国信息安全研究院有限公司 | 一种非正常信息处理方法 |
CN109240886B (zh) * | 2018-09-03 | 2023-04-18 | 平安科技(深圳)有限公司 | 异常处理方法、装置、计算机设备以及存储介质 |
CN113064789B (zh) * | 2021-03-15 | 2023-05-12 | 上海浦东发展银行股份有限公司 | 一种基于配置中心的指标数据采集系统、方法及存储介质 |
CN113253655B (zh) * | 2021-06-01 | 2022-05-17 | 中富通集团股份有限公司 | 一种机房动力设备运行环境监控数据传输告警方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101090308A (zh) * | 2007-07-06 | 2007-12-19 | 华为技术有限公司 | 一种心跳通信方法与系统 |
CN101132399A (zh) * | 2006-08-24 | 2008-02-27 | 中兴通讯股份有限公司 | 信令传输协议服务进程状态一致性恢复方法 |
CN101728869A (zh) * | 2009-11-10 | 2010-06-09 | 重庆大学 | 电站自动化系统数据网络安全监控方法 |
CN102081622A (zh) * | 2009-11-30 | 2011-06-01 | 中国移动通信集团贵州有限公司 | 评估系统健康度的方法及系统健康度评估装置 |
CN102289452A (zh) * | 2011-06-20 | 2011-12-21 | 中兴通讯股份有限公司 | 一种电信网管性能数据输出的方法及装置 |
CN102970104A (zh) * | 2012-10-24 | 2013-03-13 | 北京经纬恒润科技有限公司 | 一种获取数据的方法及服务器 |
CN103117901A (zh) * | 2013-02-01 | 2013-05-22 | 华为技术有限公司 | 一种分布式心跳检测方法、装置及系统 |
CN104125085A (zh) * | 2013-04-27 | 2014-10-29 | 中国移动通信集团黑龙江有限公司 | 一种基于esb的数据管控方法及装置 |
CN105549411A (zh) * | 2016-01-11 | 2016-05-04 | 成都互触科技有限公司 | 智能设备无线监控方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008053366A2 (en) * | 2006-06-01 | 2008-05-08 | Rajiv Muradia | Remote health care diagnostic tool |
CN104008637B (zh) * | 2014-05-20 | 2017-02-15 | 福建工程学院 | 一种机床远程故障采集通信方法 |
-
2017
- 2017-04-10 CN CN201710229043.0A patent/CN106911519B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101132399A (zh) * | 2006-08-24 | 2008-02-27 | 中兴通讯股份有限公司 | 信令传输协议服务进程状态一致性恢复方法 |
CN101090308A (zh) * | 2007-07-06 | 2007-12-19 | 华为技术有限公司 | 一种心跳通信方法与系统 |
CN101728869A (zh) * | 2009-11-10 | 2010-06-09 | 重庆大学 | 电站自动化系统数据网络安全监控方法 |
CN102081622A (zh) * | 2009-11-30 | 2011-06-01 | 中国移动通信集团贵州有限公司 | 评估系统健康度的方法及系统健康度评估装置 |
CN102289452A (zh) * | 2011-06-20 | 2011-12-21 | 中兴通讯股份有限公司 | 一种电信网管性能数据输出的方法及装置 |
CN102970104A (zh) * | 2012-10-24 | 2013-03-13 | 北京经纬恒润科技有限公司 | 一种获取数据的方法及服务器 |
CN103117901A (zh) * | 2013-02-01 | 2013-05-22 | 华为技术有限公司 | 一种分布式心跳检测方法、装置及系统 |
CN104125085A (zh) * | 2013-04-27 | 2014-10-29 | 中国移动通信集团黑龙江有限公司 | 一种基于esb的数据管控方法及装置 |
CN105549411A (zh) * | 2016-01-11 | 2016-05-04 | 成都互触科技有限公司 | 智能设备无线监控方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106911519A (zh) | 2017-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106911519B (zh) | 一种数据采集监控方法及装置 | |
Oliner et al. | What supercomputers say: A study of five system logs | |
CN101707632A (zh) | 一种动态监控服务器集群性能并实时报警的方法 | |
CN105610648B (zh) | 一种运维监控数据的采集方法及服务器 | |
CN110535713B (zh) | 监控管理系统以及监控管理方法 | |
CN112311617A (zh) | 一种配置化数据监控告警方法及系统 | |
CN109034423B (zh) | 一种故障预警判定的方法、装置、设备及存储介质 | |
CN112714013B (zh) | 一种在云环境下的应用故障定位方法 | |
CN112698915A (zh) | 多集群统一监控告警方法、系统、设备及存储介质 | |
CN109710439B (zh) | 故障处理方法和装置 | |
CN110740061A (zh) | 故障预警方法、装置及计算机存储介质 | |
CN113704052B (zh) | 一种微服务架构的运维系统、方法、设备及介质 | |
CN112395156A (zh) | 故障的告警方法和装置、存储介质和电子设备 | |
CN114356499A (zh) | Kubernetes集群告警根因分析方法及装置 | |
CN111258971A (zh) | 一种基于访问日志的应用状态监控报警系统及方法 | |
CN112636979A (zh) | 一种集群告警方法及相关装置 | |
CN112069049A (zh) | 数据监控管理方法、装置、服务器及可读存储介质 | |
CN113595776B (zh) | 监控数据处理方法与系统 | |
CN111371570A (zh) | 一种nfv网络的故障检测方法及装置 | |
CN112751722B (zh) | 数据传输质量监控方法和系统 | |
CN111240936A (zh) | 一种数据完整性校验的方法及设备 | |
WO2016188682A1 (en) | A method for determining a topology of a computer cloud at an event date | |
CN114116128B (zh) | 容器实例的故障诊断方法、装置、设备和存储介质 | |
CN114238018B (zh) | 日志采集文件完整性检测方法、系统、装置及存储介质 | |
CN109120439B (zh) | 分布式集群告警输出方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |