CN111400368A - 一种分布式服务器系统的日志查找方法及装置 - Google Patents
一种分布式服务器系统的日志查找方法及装置 Download PDFInfo
- Publication number
- CN111400368A CN111400368A CN202010150371.3A CN202010150371A CN111400368A CN 111400368 A CN111400368 A CN 111400368A CN 202010150371 A CN202010150371 A CN 202010150371A CN 111400368 A CN111400368 A CN 111400368A
- Authority
- CN
- China
- Prior art keywords
- search
- task
- reporting
- log
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种分布式服务器系统的日志查找方法及装置,其中方法为:创建查找任务;所述查找任务用于在分布式服务器系统上查找设定时段内设定对象的日志;所述查找任务包括多个查找子任务;在所述分布式服务器系统上执行所述查找任务;在确定所述查找任务的查找子任务的数量满足上限条件时,上报所述子任务的日志;所述上限条件是根据在所述设定时段内所述设定对象的日志数量与所述分布式服务器系统在所述设定时段内的日志总数量确定的。
Description
技术领域
本发明涉及大数据集群领域,尤其涉及一种分布式服务器系统的日志查找方法及装置。
背景技术
分布式服务器系统中有大量的服务器,而每台服务器每天都会产生大量的日志。在一些情况下,需要查找到特定条件下的日志。因此,如何快速地查找到需要的日志对服务器系统来说至关重要。
现有方式中,一个查询任务执行时,通常要查询的日志会涉及到多个服务器,查询的字段需要匹配较多内容,一旦某个服务器因为某种原因(比如网络延迟,或者宕机,或者就是计算量太大)导致没有返回数据,那么会一直等待查询任务在这个服务器上的子任务,从而导致整个查询任务的耗时非常久,这是一个亟待解决的问题。
发明内容
本申请实施例提供一种分布式服务器系统的日志查找方法及装置,解决了现有技术中查询任务的耗时非常久的问题。
第一方面,本申请实施例提供一种分布式服务器系统的日志查找方法,包括:创建查找任务;所述查找任务用于在分布式服务器系统上查找设定时段内设定对象的日志;所述查找任务包括多个查找子任务;在所述分布式服务器系统上执行所述查找任务;在确定所述查找任务的查找子任务的数量满足上限条件时,上报所述子任务的日志;所述上限条件是根据在所述设定时段内所述设定对象的日志数量与所述分布式服务器系统在所述设定时段内的日志总数量确定的。
上述方法中,创建在分布式服务器系统上查找日志的查找任务后,在所述分布式服务器系统上执行所述查找任务,由于查找任务的多个查找子任务中的查找子任务有可能执行失败,则在确定所述查找任务已返回查找日志的查找子任务的数量满足所述查找任务的上限条件时,便将所述查找任务已查找到的所有日志上报,从而在保证数量满足上限条件的基础上,返回已查找到的所有日志,从而不会因为少量的子任务没返回拖延整个查找任务的耗时。
一种可选实施方式中,所述上限条件是根据在所述设定时段内所述设定对象的日志数量与所述分布式服务器系统在所述设定时段内的日志总数量确定的,包括:根据在所述设定时段内所述分布式服务器系统在所述设定时段内的日志总数量和所述设定对象在所述设定时段内的日志数量,确定所述设定对象的日志占比;根据所述日志占比确定第一上报比例阈值,所述日志占比与所述第一上报比例阈值呈负相关;所述确定所述查找任务的查找子任务的数量满足上限条件,包括:根据所述已返回查找结果的查找子任务的数量和所述查找任务的所有查找子任务,确定任务比值;若确定所述任务比值不小于所述第一上报比例阈值,则确定已返回查找结果的查找子任务数量满足所述查找任务的上限条件。
上述方法中,首先根据在所述设定时段内所述分布式服务器系统在所述设定时段内的日志总数量和在所述设定时段内所述设定对象的日志数量,确定所述设定对象的日志占比,从而模糊地确定设定对象所要返回的日志,当日志占比越多时,说明日志的基数越多,那么日志返回的基数也越多,对日志返回的要求越低,因此可以根据所述日志占比确定与之呈负相关的第一上报比例阈值,当确定所述任务比值不小于所述第一上报比例阈值,则确定满足所述查找任务的上限条件,从而能够根据不同的日志占比情况,灵活确定所述查找任务的上限条件。
一种可选实施方式中,所述日志占比为区间值;所述第一上报比例阈值为区间值;所述确定所述任务比值不小于所述第一上报比例阈值,包括:确定所述任务比值不小于所述第一上报比例阈值的下限值;所述将所述设定对象的已查到的日志上报,包括:在所述任务比值不小于所述第一上报比例阈值的上限值时,将所述设定对象的已查到的日志上报。
上述方法中,所述第一上报比例阈值为区间值,因此所述任务比值不小于便达到了上限条件,此时可以再等待所述任务比值不小于所述第一上报比例阈值的上限值时,将所述设定对象的已查到的日志上报,从而给出了一种先达到基本上限条件的基础上,而后再获取更多的日志返回方式。
一种可选实施方式中,所述上限条件还包括第一预设时长;所述确定所述查找任务已返回查找结果的查找子任务的数量满足所述查找任务的上限条件,还包括:若确定执行所述查找任务的查找时长不小于所述第一预设时长,则确定所述查找任务已返回查找结果的查找子任务的数量满足所述查找任务的上限条件。
上述方式下,所述上限条件还包括第一预设时长,确定执行所述查找任务的查找时长不小于所述第一预设时长,不至于查找日志的耗时太久,也就是说可以根据所述第一预设时长来灵活设置上限条件,从而提升了日志查找的灵活性。
一种可选实施方式中,在确定所述查找时长大于所述第一预设时长且所述任务比值小于第二上报比例阈值时,停止所述查找任务的执行;所述第二上报比例阈值小于所述第一上报比例阈值。
上述方式下,在确定所述查找时长大于所述第一预设时长且所述任务比值小于第二上报比例阈值时,所述第二上报比例阈值小于所述第一上报比例阈值,说明在所述第一预设时长内查找日志的速率较慢,任务比值连小于第一上报比例阈值的第二上报比例阈值都没达到,继续查找的日志意义较小,从而及时上报,增加日志查找的总体效率。
一种可选实施方式中,在确定所述查找时长大于所述第一预设时长,所述任务比值小于所述第一上报比例阈值且不小于所述第二上报比例阈值时,则在第二预设时长内继续执行所述查找任务;若在所述第二预设时长内,确定所述任务比值不小于所述第一上报比例阈值,则将所述设定对象的已查到的日志上报;若在所述查找时长大于所述第二预设时长,确定所述任务比值小于所述第一上报比例阈值,则停止所述查找任务的执行。
上述方式下,在确定所述查找时长大于所述第一预设时长,所述任务比值小于所述第一上报比例阈值且不小于所述第二上报比例阈值时,说明在第一预设时长内日志查找的述任务比值虽然没达到第一上报比例阈值,但达到了更为基础的第二上报比例阈值,说明在第一预设时长内日志查找的速率尚可,仍有继续查找的意义,因此在第二预设时长内继续执行所述查找任务,并在第二预设时长内,确定所述任务比值不小于所述第一上报比例阈值,则将所述设定对象的已查到的日志上报,因此可以通过适当在第一预设时长之后延长查找时间,获得更多的日志,而且在所述第二预设时长内,确定所述任务比值小于所述第一上报比例阈值,说明在第一时长之后的查找速率较低,继续查找的意义较小,则停止所述查找任务的执行,以免消耗过多时长。
一种可选实施方式中,所述多个查找子任务中每个查找子任务都部署在所述分布式服务器系统中的至少一个服务器上,所述方法还包括:确定未返回查找日志的查找子任务对应的服务器。
上述方式下,所述多个查找子任务中每个查找子任务都部署在所述分布式服务器系统中的至少一个服务器上,可以及时确定未返回查找日志的查找子任务对应的服务器,以便及时排查对应的服务器。
第二方面,本申请提供一种分布式服务器系统的日志查找装置,包括:创建模块,用于创建查找任务;所述查找任务用于在分布式服务器系统上查找设定时段内设定对象的日志;所述查找任务包括多个查找子任务;处理模块,用于在所述分布式服务器系统上执行所述查找任务;在确定所述查找任务的查找子任务的数量满足上限条件时,上报所述子任务的日志;所述上限条件是根据在所述设定时段内所述设定对象的日志数量与所述分布式服务器系统在所述设定时段内的日志总数量确定的。
一种可选实施方式中,所述处理模块具体用于:根据在所述设定时段内所述分布式服务器系统在所述设定时段内的日志总数量和所述设定对象在所述设定时段内的日志数量,确定所述设定对象的日志占比;根据所述日志占比确定第一上报比例阈值,所述日志占比与所述第一上报比例阈值呈负相关;根据所述已返回查找结果的查找子任务的数量和所述查找任务的所有查找子任务,确定任务比值;若确定所述任务比值不小于所述第一上报比例阈值,则确定已返回查找结果的查找子任务数量满足所述查找任务的上限条件。
一种可选实施方式中,所述日志占比为区间值;所述第一上报比例阈值为区间值;所述处理模块具体用于:确定所述任务比值不小于所述第一上报比例阈值的下限值;在所述任务比值不小于所述第一上报比例阈值的上限值时,将所述设定对象的已查到的日志上报。
一种可选实施方式中,所述上限条件还包括第一预设时长;所述处理模块还用于:若确定执行所述查找任务的查找时长不小于所述第一预设时长,则确定所述查找任务已返回查找结果的查找子任务的数量满足所述查找任务的上限条件。
一种可选实施方式中,所述处理模块还用于:在确定所述查找时长大于所述第一预设时长且所述任务比值小于第二上报比例阈值时,停止所述查找任务的执行;所述第二上报比例阈值小于所述第一上报比例阈值。
一种可选实施方式中,所述处理模块还用于:在确定所述查找时长大于所述第一预设时长,所述任务比值小于所述第一上报比例阈值且不小于所述第二上报比例阈值时,则在第二预设时长内继续执行所述查找任务;若在第二预设时长内,确定所述任务比值不小于所述第一上报比例阈值,则将所述设定对象的已查到的日志上报;所述第一预设时长小于所述第二预设时长;若在所述查找时长大于所述第二预设时长,确定所述任务比值小于所述第一上报比例阈值,则停止所述查找任务的执行。
一种可选实施方式中,所述多个查找子任务中每个查找子任务都部署在所述分布式服务器系统中的至少一个服务器上,所述处理模块还用于:确定未返回查找日志的查找子任务对应的服务器。
上述第二方面及第二方面各个实施例的有益效果,可以参考上述第一方面及第一方面各个实施例的有益效果,这里不再赘述。
第三方面,本申请实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个实施例的方法。
第四方面,本申请实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个实施例的方法。
附图说明
图1为本申请实施例提供的一种分布式服务器系统的日志查找方法的步骤流程示意图;
图2为本申请实施例提供的一种分布式服务器系统的日志查找装置的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互结合。
分布式服务器系统中有大量的服务器,而每台服务器每天都会产生大量的日志。举例来说,内容分发网络(Content Delivery Network,CDN)中有上万台服务器,每台服务器每天产生的日志压缩后也要有200T。为了方便的对全网所有日志进行查找,需要有一个比较好的查找,如何快速地查找到需要的日志对服务器系统来说至关重要。
在现有技术下,通常小量的查询不会存在太大问题,问题在于一旦需要查询的日志很多时,如时间范围很大(比如1个月),查询的域名范围很大(比如1000个域名),需要查询的字段又要匹配较多内容,这时整个计算过程就会非常耗时。通过分析发现,耗时的原因一方面是数据量很大,一方面是因为在如此大的数据量下,需要消耗计算集群的大量资源,一旦某台服务器因为种种原因(比如网络延迟,或者宕机,或者就是计算量太大)导致没有返回数据,那么将会导致整个查找任务一直在等待某台服务器上的查找子任务完成,如果涉及的服务器数据很大,那么出现问题的服务器的数量也会明显上升,这样很有可能会导致任务长时间无法完成。这是一个亟待解决的问题。
为此,如图1所示,本申请提供一种分布式服务器系统的日志查找方法,包括:
步骤101:创建查找任务。
步骤102:在所述分布式服务器系统上执行所述查找任务。
步骤103:在确定所述查找任务的查找子任务的数量满足上限条件时,上报所述子任务的日志。
步骤101中,所述查找任务用于在分布式服务器系统上通过多个查找子任务查找设定时段内设定对象的日志。具体来说,所述查找任务是部署在分布式服务器系统上的任务,由于每条日志都标记了该条日志的生成时间以及相关对象,可以按照每条日志的生成时间和相关对象对日志进行查找。设定时段的日志内所述设定对象的日志是指特定对象在一定时间范围内生成的日志。另外,查找任务包括多个查找子任务,每个查找子任务用于查找至少一个服务器上设定时段内设定对象的日志。
举例来说,设定对象为a.com,设定时段为当前30天内,查找任务为,在分布式服务器系统上通过多个查找子任务(即多台服务器上)查找a.com当前 30天内的日志。
步骤103中,所述上限条件是根据所述设定对象在所述设定时段内的日志数量与所述分布式服务器系统在所述设定时段内的日志总数量确定的。具体的确定方式可以有多种,如可以根据所述设定对象在所述设定时段内的日志数量与所述分布式服务器系统在所述设定时段内的日志总数量比值关系确定,也可以由数量关系确定。
步骤103的一种可选实施方式中,所述确定方式包括:
步骤(1):根据在所述设定时段内所述分布式服务器系统在所述设定时段内的日志总数量和所述设定对象在所述设定时段内的日志数量,确定所述设定对象的日志占比。
步骤(2):根据所述日志占比确定第一上报比例阈值,所述日志占比与所述第一上报比例阈值呈负相关。其中,负相关指因变量值随自变量值的增大(减小)而减小(增大)的关系。
步骤(3):根据所述已返回查找结果的查找子任务的数量和所述查找任务的所有查找子任务,确定任务比值。
步骤(4):若确定所述任务比值不小于所述第一上报比例阈值,则确定已返回查找结果的查找子任务数量满足所述查找任务的上限条件。
步骤(1)中,举例来说,获取查找任务近期30天内所有域名的总日志条数 V_all,以及a.com在查找子任务近期30天内的日志条数V。具体来说,分布式服务器系统有日志统计数据,可以根据设定对象(如域名)、设定时段(如当前30天内)等条件进行查询,从分布式服务器系统的日志统计数据中获得每个域名请求数,请求数为1表明有一条日志,所以V和V_all表明了日志的条数。日志占比可以为W=V/V_all,还可以有多种方式来定义日志占比,如在分子或分母处加上余项,W=(V+100)/V_all。
步骤(2)中,日志占比可在一定程度上表征设定时间段内设定对象的日志数量的多少,不同的日志数量对查找到的日志完整度要求也不一样。举例来说,如果当前30天内所有域名的总日志条数V_all为1000000,需要分析a.com的日志,如果a.com的日志基数本身较大,如900000,那么即便一部分日志未返回,对分析a.com的日志的影响结果也不大,反之,当a.com的日志基数本身较小时,如100000,每一条a.com的日志都更加珍贵,所以对日志完整度的要求更高。具体来说,完整度要求可以用第一上报比例阈值表征,相应地,第一上报比例阈值与日志占比呈负相关,举例来说,第一上报比例阈值P1为1-V/V_all。那么当日志占比为10%时,第一上报比例阈值为90%,步骤(4)中任务比值要达到90%以上才确定已返回查找结果的查找子任务数量满足所述查找任务的上限条件。显然,上报的日志越多,查找结果越可信。如第一上报比例阈值取 99%时必然比取90%时更加可信,因此,可以灵活设置第一上报比例阈值与日志占比的关系,使得第一上报比例阈值与日志占比呈负相关的基础上,上报的日志数量更多,查找结果更加可信。
步骤(3)中,实时确定所述已返回查找结果的查找子任务的数量和所有查找子任务,确定任务比值。举例来说,任务比值I可以为查找任务中返回日志的子任务数量t1与查找任务的所有子任务数量T的比值,即I=t1/T。
所述查找任务的所有查找子任务数量T为100个,目前已返回查找结果的查找子任务数量t1为80,那么任务比值便是80%。
步骤(4)中,若确定所述任务比值不小于所述第一上报比例阈值,则确定已返回查找结果的查找子任务数量满足所述查找任务的上限条件。举例来说,当任务比值不小于90%时,便可进行上报,但并不一定是刚达到90%时便上报,具体可结合实际情况,灵活设置上报时机。
步骤(1)~步骤(4)方法中,首先根据在所述设定时段内所述分布式服务器系统的日志总数量和所述设定对象的日志数量,确定所述设定对象的日志占比,再根据日志占比确定第一上报比例阈值,当日志占比越多时,说明在所述设定时段内所述设定对象的日志的基数越多,那么能够返回的在所述设定时段内所述设定对象的日志也越多。因此,对在所述设定时段内所述设定对象的日志返回的要求越低,第一上报比例阈值也就越小,因此可以根据所述日志占比确定与之呈负相关的第一上报比例阈值,当确定所述任务比值不小于所述第一上报比例阈值时,则确定满足所述查找任务的上限条件,从而能够根据不同的日志占比情况,灵活确定所述查找任务的上限条件。
更具体地,步骤(4)的一种可选实施方式中,所述日志占比为区间值;所述第一上报比例阈值为区间值。若确定所述任务比值不小于所述第一上报比例阈值的下限值,便确定所述任务比值不小于所述第一上报比例阈值的下限值。具体的上报时机可以这样设定:当所述任务比值不小于所述第一上报比例阈值的上限值时,将所述设定对象的已查到的日志上报。
需要说明的是,当第一比例阈值为区间值时,区间值有不同的开闭情况,可以为以下任一种情况:双闭区间[a,b];双开区间(a,b);左闭右开区间[a,b);左开右闭区间(a,b],a<b,但无论是哪种情况,第一比例阈值的下限值均为a,第一比例阈值的上限值均为b。也就是说,任务比值不小于a时便满足了上限条件,可以上报。在一种优选方式下,任务比值不小于a时不立即上报,待任务比值不小于b时,才将所述设定对象的已查到的日志上报,从而在满足上限条件的基础上,可以等待再获取更多的日志。
举例来说,日志占比W划分为(0%,100%],第一上报比例阈值P1为 [90%,99%]。可以建立W与P1的对应关系,举例来说,将W的取值划分为三个区间值(0%,93%],(93%,96%],(96%,100%],将P1的取值也划分为3个对应的区间值[96%,99%),[93%,96%),[90%,93%),即W取(0%,93%]时与P1取[96%,99%) 时对应,W取(93%,96%]时与P1取[93%,96%)时对应,W取(96%,100%]与P1取 [90%,93%)时对应。若日志占比为(0%,93%],那么与之对应的P1为[96%,99%),这时P1的上限值为99%;那么可以在任务比值不小于99%时,将所述设定对象的已查到的日志上报。
步骤(4)的一种可选实施方式中,所述上限条件还包括第一预设时长;所述确定所述查找任务已返回查找结果的查找子任务数量满足所述查找任务的上限条件,还包括:若确定执行所述查找任务的查找时长不小于所述第一预设时长,则确定所述查找任务已返回查找结果的查找子任务数量满足所述查找任务的上限条件。
举例来说,第一预设时长为1小时,当执行所述查找任务的查找时长为1 小时1分钟时,可以直接将返回的日志上报。
上述方式下,所述上限条件还包括第一预设时长,确定执行所述查找任务的查找时长不小于所述第一预设时长,不至于查找日志的耗时太久,也就是说可以根据所述第一预设时长来灵活设置上限条件,从而提升了日志查找的灵活性。
步骤(4)的一种可选实施方式中,在确定所述查找时长大于所述第一预设时长且所述任务比值小于第二上报比例阈值时,停止所述查找任务的执行;所述第二上报比例阈值小于所述第一上报比例阈值。
举例来说,第二上报比例阈值为90%,第一上报比例阈值为93%,第一预设时长为1小时。若在查找时长大于1小时的情况下,任务比值连第二上报比例阈值90%都没超过,更不会超过第一上报比例阈值93%,那么继续查找的日志意义较小,那么便停止查找任务的执行。
上述方式下,在确定所述查找时长大于所述第一预设时长且所述任务比值小于第二上报比例阈值时,由于所述第二上报比例阈值是小于所述第一上报比例阈值的,说明在所述第一预设时长内查找日志的速率较慢,任务比值连第二上报比例阈值都没达到,继续查找的日志意义较小,从而及时上报,增加日志查找的总体效率。
在另一种可选实施方式中,在确定所述查找时长大于所述第一预设时长,所述任务比值小于所述第一上报比例阈值且不小于所述第二上报比例阈值时,则在第二预设时长内继续执行所述查找任务。
由于所述第二上报比例阈值是小于所述第一上报比例阈值的,那么当所述查找时长大于所述第一预设时长,且任务比值介于第二上报比例阈值与第一上报比例阈值之间时,说明返回查找结果的查找子任务的任务比值虽然没达到第一上报比例阈值,但也达到了第二上报比例阈值,因此可以继续延长时间执行所述查找任务。
若在所述第二预设时长内,确定所述任务比值不小于所述第一上报比例阈值,则将所述设定对象的已查到的日志上报;若在所述查找时长大于所述第二预设时长,确定所述任务比值小于所述第一上报比例阈值,则停止所述查找任务的执行。其中,所述第一预设时长小于所述第二预设时长。
举例来说,第一预设时长为1小时,第二预设时长为1小时30分钟,第一上报比例阈值为93%,第二上报比例阈值为90%。若在查找时长大于1小时的情况下,任务比值为91%,说明在第一预设时长内日志查找的速率尚可,仍有继续查找的意义,则将查找任务的执行时长继续延长,在第1小时之后1小时30分钟结束之前持续查找。
若在在第1小时之后1小时30分钟结束之前,确定所述任务比值为94%,便可以将所述已查到的日志上报;或者,在查找任务执行时长超过1小时30 分钟后,确定所述任务比值仍小于93%,则停止所述查找任务的执行。
更具体地,当查询设定对象a.com查找任务的总子任务数量为100个,在通过计算得到查找任务开始执行时刻的前30天内的日志占比W=94%,那么表明需要任务比值达到[94%,96%)这个区间范围即可,此时如果有94%的任务返回,那么说明任务比值已经达到标准,此时可以触发定时器(比如一分钟,可根据实际情况自行配置),那么如果一分钟内又返回了2个子任务,此时任务比值达到了96%,且定时器超时,那么不再继续等待,直接将任务比值为96%的所有查找结果返回。
或者,当查询设定对象a.com查找任务的总子任务数量为100个,在通过计算得到查找任务开始执行时刻的前30天内的日志占比W=94%,那么表明需要任务比值达到[94%,96%)这个区间范围即可,此时如果有90%的任务返回,那么说明任务比值还没有达标,此时会继续等待子任务,直到子任务返回总数达到94%,一旦返回的子任务达到94%,那么就触发定时器,定时器超时后,如果任务比值没有达到更高,也不会继续等待了,直接将所有查找到的日志返回。
上述方式下,在确定所述查找时长大于所述第一预设时长,所述任务比值小于所述第一上报比例阈值且不小于所述第二上报比例阈值时,说明在第一预设时长内日志查找的速率尚可,仍有继续查找的意义,因此在第二预设时长内继续执行所述查找任务,并在第二预设时长内,确定所述任务比值不小于所述第一上报比例阈值,则将所述设定对象的已查到的日志上报,因此可以通过适当在第一预设时长之后延长查找时间,获得更多的日志,而且在所述第二预设时长内,确定所述任务比值小于所述第一上报比例阈值,说明在第一时长之后的查找速率较低,继续查找的意义较小,则停止所述查找任务的执行,以免消耗过多时长。
步骤101~步骤103之外的一种可选实施方式中,所述多个查找子任务中每个查找子任务都部署在所述分布式服务器系统中的至少一个服务器上,还可以确定未返回查找日志的查找子任务对应的服务器。
举例来说,查找子任务一部署在分布式服务器系统的服务器一和服务器二上,当查找子任务一未返回时可以确定是服务器一和服务器二还未返回要查找的日志,那么便能知悉是服务器一和服务器二出现了故障,这样可以进一步方便技术人员去服务器一和服务器二上排查问题。
上述方式下,所述多个查找子任务中每个查找子任务都部署在所述分布式服务器系统中的至少一个服务器上,可以及时确定未返回查找日志的查找子任务对应的服务器,以便及时排查对应的服务器。从上述两段不能理解排查对应服务器的方法,请进一步解释
步骤101~步骤103的方法中,在分布式服务器系统上创建查找任务后,在所述分布式服务器系统上执行所述查找任务,由于查找任务的多个查找子任务中的查找子任务有可能执行失败,则在确定所述查找任务已返回查找结果的查找子任务的数量满足所述查找任务的上限条件时,便将所述查找任务已查找到的所有日志上报,从而在保证数量满足上限条件的基础上,返回已查找到的所有日志,从而不会因为少量的子任务没返回拖延整个查找任务,使耗时过长。
如图2所示,本申请提供一种分布式服务器系统的日志查找装置,包括:创建模块201,用于创建查找任务;所述查找任务用于在分布式服务器系统上查找设定时段内设定对象的日志;所述查找任务包括多个查找子任务;处理模块202,用于在所述分布式服务器系统上执行所述查找任务;在确定所述查找任务的查找子任务的数量满足上限条件时,上报所述子任务的日志;所述上限条件是根据在所述设定时段内所述设定对象的日志数量与所述分布式服务器系统在所述设定时段内的日志总数量确定的。
一种可选实施方式中,所述处理模块202具体用于:根据在所述设定时段内所述分布式服务器系统在所述设定时段内的日志总数量和所述设定对象在所述设定时段内的日志数量,确定所述设定对象的日志占比;根据所述日志占比确定第一上报比例阈值,所述日志占比与所述第一上报比例阈值呈负相关;根据所述已返回查找结果的查找子任务的数量和所述查找任务的所有查找子任务,确定任务比值;若确定所述任务比值不小于所述第一上报比例阈值,则确定已返回查找结果的查找子任务数量满足所述查找任务的上限条件。
一种可选实施方式中,所述日志占比为区间值;所述第一上报比例阈值为区间值;所述处理模块202具体用于:确定所述任务比值不小于所述第一上报比例阈值的下限值;在所述任务比值不小于所述第一上报比例阈值的上限值时,将所述设定对象的已查到的日志上报。
一种可选实施方式中,所述上限条件还包括第一预设时长;所述处理模块 202还用于:若确定执行所述查找任务的查找时长不小于所述第一预设时长,则确定所述查找任务已返回查找结果的查找子任务的数量满足所述查找任务的上限条件。
一种可选实施方式中,所述处理模块202还用于:在确定所述查找时长大于所述第一预设时长且所述任务比值小于第二上报比例阈值时,停止所述查找任务的执行;所述第二上报比例阈值小于所述第一上报比例阈值。
一种可选实施方式中,所述处理模块202还用于:在确定所述查找时长大于所述第一预设时长,所述任务比值小于所述第一上报比例阈值且不小于所述第二上报比例阈值时,则在第二预设时长内继续执行所述查找任务;若在第二预设时长内,确定所述任务比值不小于所述第一上报比例阈值,则将所述设定对象的已查到的日志上报;所述第一预设时长小于所述第二预设时长;若在所述查找时长大于所述第二预设时长,确定所述任务比值小于所述第一上报比例阈值,则停止所述查找任务的执行。
一种可选实施方式中,所述多个查找子任务中每个查找子任务都部署在所述分布式服务器系统中的至少一个服务器上,所述处理模块202还用于:确定未返回查找日志的查找子任务对应的服务器。
本申请实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行本申请实施例提供的一种分布式服务器系统的日志查找方法及任一可选方法。
本申请实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行本申请实施例提供的一种分布式服务器系统的日志查找方法及任一可选方法。
最后应说明的是:本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种分布式服务器系统的日志查找方法,其特征在于,包括:
创建查找任务;
在所述分布式服务器系统上执行所述查找任务;
在确定所述查找任务的查找子任务的数量满足上限条件时,上报所述子任务的日志;所述上限条件是根据在所述设定时段内所述设定对象的日志数量与所述分布式服务器系统在所述设定时段内的日志总数量确定的。
2.如权利要求1所述的方法,其特征在于,所述上限条件是根据在所述设定时段内所述设定对象的日志数量与所述分布式服务器系统在所述设定时段内的日志总数量确定的,包括:
根据在所述设定时段内所述分布式服务器系统在所述设定时段内的日志总数量和所述设定对象在所述设定时段内的日志数量,确定所述设定对象的日志占比;
根据所述日志占比确定第一上报比例阈值,所述日志占比与所述第一上报比例阈值呈负相关;
所述确定所述查找任务的查找子任务的数量满足上限条件,包括:
根据所述已返回查找结果的查找子任务的数量和所述查找任务的所有查找子任务,确定任务比值;
若确定所述任务比值不小于所述第一上报比例阈值,则确定已返回查找结果的查找子任务数量满足所述查找任务的上限条件。
3.如权利要求2所述的方法,其特征在于,所述日志占比为区间值;所述第一上报比例阈值为区间值;所述确定所述任务比值不小于所述第一上报比例阈值,包括:
确定所述任务比值不小于所述第一上报比例阈值的下限值;
所述将所述设定对象的已查到的日志上报,包括:在所述任务比值不小于所述第一上报比例阈值的上限值时,将所述设定对象的已查到的日志上报。
4.如权利要求2所述的方法,其特征在于,所述上限条件还包括第一预设时长;所述确定所述查找任务已返回查找结果的查找子任务的数量满足所述查找任务的上限条件,还包括:
若确定执行所述查找任务的查找时长不小于所述第一预设时长,则确定所述查找任务已返回查找结果的查找子任务的数量满足所述查找任务的上限条件。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
在确定所述查找时长大于所述第一预设时长且所述任务比值小于第二上报比例阈值时,停止所述查找任务的执行;所述第二上报比例阈值小于所述第一上报比例阈值。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
在确定所述查找时长大于所述第一预设时长,所述任务比值小于所述第一上报比例阈值且不小于所述第二上报比例阈值时,则在第二预设时长内继续执行所述查找任务;
若在第二预设时长内,确定所述任务比值不小于所述第一上报比例阈值,则将所述设定对象的已查到的日志上报;所述第一预设时长小于所述第二预设时长;
若在所述查找时长大于所述第二预设时长,确定所述任务比值小于所述第一上报比例阈值,则停止所述查找任务的执行。
7.如权利要求1-6任一项所述的方法,其特征在于,所述多个查找子任务中每个查找子任务都部署在所述分布式服务器系统中的至少一个服务器上,所述方法还包括:
确定未返回查找日志的查找子任务对应的服务器。
8.一种分布式服务器系统的日志查找装置,其特征在于,包括:
创建模块,用于创建查找任务;所述查找任务用于在分布式服务器系统上通过多个查找子任务查找设定时段内设定对象的日志;所述查找任务包括多个查找子任务;
处理模块,用于在所述分布式服务器系统上执行所述查找任务;在确定所述查找任务的查找子任务的数量满足上限条件时,上报所述子任务的日志;所述上限条件是根据在所述设定时段内所述设定对象的日志数量与所述分布式服务器系统在所述设定时段内的日志总数量确定的。
9.一种计算机设备,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至7中任意一项所述的方法被执行。
10.一种存储介质,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至7中任意一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010150371.3A CN111400368B (zh) | 2020-03-06 | 2020-03-06 | 一种分布式服务器系统的日志查找方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010150371.3A CN111400368B (zh) | 2020-03-06 | 2020-03-06 | 一种分布式服务器系统的日志查找方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111400368A true CN111400368A (zh) | 2020-07-10 |
CN111400368B CN111400368B (zh) | 2023-12-12 |
Family
ID=71434088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010150371.3A Active CN111400368B (zh) | 2020-03-06 | 2020-03-06 | 一种分布式服务器系统的日志查找方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111400368B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220207017A1 (en) * | 2020-12-31 | 2022-06-30 | EMC IP Holding Company LLC | Method, device, and computer program for storing index values of monitored objects |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104301360A (zh) * | 2013-07-19 | 2015-01-21 | 阿里巴巴集团控股有限公司 | 一种日志数据记录的方法、日志服务器及系统 |
CN105468737A (zh) * | 2015-11-24 | 2016-04-06 | 湖北大学 | 一种网络服务大数据分析方法、云计算平台及挖掘系统 |
CN106776622A (zh) * | 2015-11-20 | 2017-05-31 | 北京国双科技有限公司 | 访问日志的查询方法和装置 |
WO2017101701A1 (zh) * | 2015-12-15 | 2017-06-22 | 阿里巴巴集团控股有限公司 | 一种任务状态的查询方法和装置 |
US20170220663A1 (en) * | 2016-01-29 | 2017-08-03 | AppDynamics, Inc. | Log Event Summarization for Distributed Server System |
CN107483567A (zh) * | 2017-08-03 | 2017-12-15 | 广州华多网络科技有限公司 | 一种分布式日志搜索的方法及系统 |
CN108228379A (zh) * | 2018-01-24 | 2018-06-29 | 广东远峰汽车电子有限公司 | 日志统计方法、收集服务器、分布式服务器及汇总服务器 |
US10235417B1 (en) * | 2015-09-02 | 2019-03-19 | Amazon Technologies, Inc. | Partitioned search of log events |
WO2019140828A1 (zh) * | 2018-01-17 | 2019-07-25 | 平安科技(深圳)有限公司 | 电子装置、分布式系统日志查询方法及存储介质 |
CN110134648A (zh) * | 2019-05-22 | 2019-08-16 | 中国联合网络通信集团有限公司 | 日志处理方法、装置、设备、系统及计算机可读存储介质 |
-
2020
- 2020-03-06 CN CN202010150371.3A patent/CN111400368B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104301360A (zh) * | 2013-07-19 | 2015-01-21 | 阿里巴巴集团控股有限公司 | 一种日志数据记录的方法、日志服务器及系统 |
US10235417B1 (en) * | 2015-09-02 | 2019-03-19 | Amazon Technologies, Inc. | Partitioned search of log events |
CN106776622A (zh) * | 2015-11-20 | 2017-05-31 | 北京国双科技有限公司 | 访问日志的查询方法和装置 |
CN105468737A (zh) * | 2015-11-24 | 2016-04-06 | 湖北大学 | 一种网络服务大数据分析方法、云计算平台及挖掘系统 |
WO2017101701A1 (zh) * | 2015-12-15 | 2017-06-22 | 阿里巴巴集团控股有限公司 | 一种任务状态的查询方法和装置 |
US20170220663A1 (en) * | 2016-01-29 | 2017-08-03 | AppDynamics, Inc. | Log Event Summarization for Distributed Server System |
CN107483567A (zh) * | 2017-08-03 | 2017-12-15 | 广州华多网络科技有限公司 | 一种分布式日志搜索的方法及系统 |
WO2019140828A1 (zh) * | 2018-01-17 | 2019-07-25 | 平安科技(深圳)有限公司 | 电子装置、分布式系统日志查询方法及存储介质 |
CN108228379A (zh) * | 2018-01-24 | 2018-06-29 | 广东远峰汽车电子有限公司 | 日志统计方法、收集服务器、分布式服务器及汇总服务器 |
CN110134648A (zh) * | 2019-05-22 | 2019-08-16 | 中国联合网络通信集团有限公司 | 日志处理方法、装置、设备、系统及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
乔婧;金键;毛伟;: "一种基于查询事件的域名服务器日志模型" * |
王宇飞;刘丹;吴嘉生;: "基于OSGi的分布式系统集中日志管理方案" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220207017A1 (en) * | 2020-12-31 | 2022-06-30 | EMC IP Holding Company LLC | Method, device, and computer program for storing index values of monitored objects |
US11586610B2 (en) * | 2020-12-31 | 2023-02-21 | EMC IP Holding Company LLC | Method, device, and computer program for storing index values of monitored objects |
Also Published As
Publication number | Publication date |
---|---|
CN111400368B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10558498B2 (en) | Method for scheduling data flow task and apparatus | |
US11016971B2 (en) | Splitting a time-range query into multiple sub-queries for parallel execution | |
CN111190703B (zh) | 实时数据处理方法、装置、计算机设备和存储介质 | |
CN108205469B (zh) | 一种基于MapReduce的资源分配方法及服务器 | |
CN107402863B (zh) | 一种用于通过日志系统处理业务系统的日志的方法与设备 | |
CN110888774A (zh) | 基于hbase的大数据报表处理方法及装置 | |
CN115587118A (zh) | 任务数据的维表关联处理方法及装置、电子设备 | |
CN114490078A (zh) | 一种微服务的动态缩扩容方法、装置及设备 | |
CN111400368A (zh) | 一种分布式服务器系统的日志查找方法及装置 | |
CN111913937B (zh) | 数据库运维方法和装置 | |
CN108463813B (zh) | 一种进行数据处理的方法和装置 | |
CN110909023B (zh) | 一种查询计划的获取方法、数据查询方法及装置 | |
CN107958414B (zh) | 一种清除cics系统长交易的方法及系统 | |
CN113722141B (zh) | 数据任务的延迟原因确定方法、装置、电子设备及介质 | |
CN115373829A (zh) | Cpu资源的调度方法、装置及系统 | |
CN113722349A (zh) | 基于分布式数据库的sql审核方法、装置和计算机设备 | |
CN108920722B (zh) | 一种参数配置的方法、装置及计算机存储介质 | |
CN112527482A (zh) | 基于移动边缘云平台的任务管理方法及系统 | |
CN108572871B (zh) | 一种资源分配方法、装置、电子设备及存储介质 | |
CN111258724A (zh) | 一种分布式系统的数据处理方法、装置、设备和存储介质 | |
CN111767137B (zh) | 一种系统部署方法、装置、电子设备及存储介质 | |
CN113282405B (zh) | 一种负载调整的优化方法及终端 | |
CN110334096B (zh) | 一种对非分区表进行分区并行读取的方法及装置 | |
CN106681819B (zh) | 一种线程的处理方法及装置 | |
CN112087472B (zh) | 基于实时水位的批量任务调度方法、装置及平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |