CN108363649A - 一种分布式统计日志访问量的方法及装置 - Google Patents

一种分布式统计日志访问量的方法及装置 Download PDF

Info

Publication number
CN108363649A
CN108363649A CN201711475272.7A CN201711475272A CN108363649A CN 108363649 A CN108363649 A CN 108363649A CN 201711475272 A CN201711475272 A CN 201711475272A CN 108363649 A CN108363649 A CN 108363649A
Authority
CN
China
Prior art keywords
log
working cell
data
daily record
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711475272.7A
Other languages
English (en)
Other versions
CN108363649B (zh
Inventor
王嘉伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201711475272.7A priority Critical patent/CN108363649B/zh
Publication of CN108363649A publication Critical patent/CN108363649A/zh
Application granted granted Critical
Publication of CN108363649B publication Critical patent/CN108363649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种分布式统计日志访问量的方法及装置,该方法包括:在分布式实时计算系统的服务器集群中,实时获取多个日志数据;将获取到的多个日志数据分割为第一预定数量的日志数据流;创建所述第一预定数量的工作单元,并将每一个日志数据流一一对应分配至每一个工作单元;在每一个工作单元中,对当前工作单元中已分配的日志数据流中的各个日志数据进行统计,并使用得到的日志统计数据实时更新统计数据库。通过本发明,极大地降低了每台机器的负载;同时,由于极大地减少了对日志文件的执行操作,因此,极大地提高了整个集群的数据处理响应速度;实现了快速、精确地实时统计每天的用户有效访问次数。

Description

一种分布式统计日志访问量的方法及装置
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种分布式统计日志访问量的方法及装置。
背景技术
在大型网站中,服务器每受理一次用户请求,就产生一条访问日志,访问日志的日志字段通常包括访问IP(Internet Protocol,网络之间互连的协议)、访问时间、访问路径、访问时长、处理日志数据的机器和此次HTTP(HyperText Transfer Protocol,超文本传输协议)请求的状态码。若需要统计网站的每天有效访问次数和总访问次数,但是由于网站访问日志的数量非常大,每日可能达到千亿条级别,因此用常规的统计方式来对这样的日志进行统计操作是不可行的,因为单台机器的运算处理速度远远跟不上日志产生速度。现有技术中,在处理庞大的访问日志过程中,如使用10台机器,首先,每台机器都接收所有日志并丢弃不需该机器处理的日志,随后,在每台机器上如每5秒对要分析的日志分别执行判断是否为有效访问的日志,并对有效访问的日志进行统计操作,随后,将统计结果存储在该机器的临时文件中,并删除该完成统计的有效访问的日志,同时,通过每天写一个小脚本统计各个临时文件中的总访问次数,并把统计结果存储到数据库中。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1、每台机器的负载巨大且经常会发生日志丢失的现象,因为单台机器的带宽可能波动,因此可能不足以接收全部的访问日志,从而造成统计结果失真;
2、频繁访问文件系统将导致系统响应变慢;
3、若任一台机器发生宕机,将影响当天的全部统计数据;
4、每天统计结束之后,第二天才获取到前一天的统计数据,不能实时的观察统计数据。
发明内容
本发明实施例提供一种分布式统计日志访问量的方法及装置,实现了实时、精确地获取到日志数据统计结果。
一方面,本发明实施例提供了一种分布式统计日志访问量的方法,包括:
在分布式实时计算系统的服务器集群中,实时获取多个日志数据;
将获取到的多个日志数据分割为第一预定数量的日志数据流;
创建所述第一预定数量的工作单元,并将每一个日志数据流一一对应分配至每一个工作单元;
在每一个工作单元中,对当前工作单元中已分配的日志数据流中的各个日志数据进行统计,并使用得到的日志统计数据实时更新统计数据库。
另一方面,本发明实施例提供了一种分布式统计日志访问量的装置,包括:
获取单元,用于在分布式实时计算系统的服务器集群中,实时获取多个日志数据;
分割单元,用于将获取到的多个日志数据分割为第一预定数量的日志数据流;
创建及分配单元,用于创建所述第一预定数量的工作单元,并将每一个日志数据流一一对应分配至每一个工作单元;
统计及更新单元,用于在每一个工作单元中,对当前工作单元中已分配的日志数据流中的各个日志数据进行统计,并使用得到的日志统计数据实时更新统计数据库。
上述技术方案具有如下有益效果:在分布式实时计算系统的服务器集群中,每台机器只获取各自需要处理的日志数据,从而极大地降低了每台机器的负载;同时,由于极大地减少了对日志文件的执行操作,因此,极大地提高了整个集群的数据处理响应速度;实现了快速、精确地实时统计每天的用户有效访问次数,同时,运维人员能够实时地获取到统计结果,及时地为运维人员在网站运维过程中提供必要的参考依据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例中一种分布式统计日志访问量的方法流程图;
图2为本发明另一实施例中一种分布式统计日志访问量的装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明一个实施例中一种分布式统计日志访问量的方法流程图,包括:
101、在分布式实时计算系统的服务器集群中,实时获取多个日志数据;
102、将获取到的多个日志数据分割为第一预定数量的日志数据流;
103、创建所述第一预定数量的工作单元,并将每一个日志数据流一一对应分配至每一个工作单元;
104、在每一个工作单元中,对当前工作单元中已分配的日志数据流中的各个日志数据进行统计,并使用得到的日志统计数据实时更新统计数据库。
可选地,所述创建所述第一预定数量的工作单元之后,还包括:初始化已创建的第一预定数量的工作单元。
可选地,还包括:
根据在分布式实时计算系统的服务器集群中实时获取到的日志数据的数据量,重新设置日志数据流的第二预定数量;
初始化第二预定数量的工作单元;
其中,所述重新设置日志数据流的预定数量,包括通过配置文件重新设置和通过人机交互界面接收用户输入的数据重新设置。
优选地,其中,工作单元的初始化,具体包括:
初始化创建工作单元的预定客户端框架的链接,以用于在工作单元中实例化该工作单元的预定客户端框架;
在工作单元中已创建的所述预定客户端框架的链接中,初始化该工作单元的分布式统计量;
其中,所述分布式统计量包括用户访问次数和用户有效访问次数。
优选地,所述统计数据库用于存储每天的日志统计数据,所述日志统计数据包括用户访问次数和用户有效访问次数;
所述在每一个工作单元中,对当前工作单元中已分配的日志数据流中的各个日志数据进行统计,并使用得到的日志统计数据实时更新统计数据库,包括:
针对每一个工作单元,以预定统计频率统计已分配的日志数据流的各个日志数据中的用户访问次数;
以所述预定统计频率,根据已分配的日志数据流的各个日志数据中的日志请求的状态码判断各个日志数据的日志请求是否为用户有效访问,并根据判断结果统计用户有效访问次数;
通过当前工作单元中实例化的预定客户端框架提供的分布式数据协调服务,实时更新所述统计数据库中当天的用户访问次数和用户有效访问次数。
如图2所示,为本发明另一实施例中一种分布式统计日志访问量的装置结构示意图,包括:
获取单元21,用于在分布式实时计算系统的服务器集群中,实时获取多个日志数据;
分割单元22,用于将获取到的多个日志数据分割为第一预定数量的日志数据流;
创建及分配单元23,用于创建所述第一预定数量的工作单元,并将每一个日志数据流一一对应分配至每一个工作单元;
统计及更新单元24,用于在每一个工作单元中,对当前工作单元中已分配的日志数据流中的各个日志数据进行统计,并使用得到的日志统计数据实时更新统计数据库。
7、根据权利要求6所述的装置,其特征在于,还包括:
第一初始化单元,用于初始化已创建的第一预定数量的工作单元。
8、根据权利要求6所述的装置,其特征在于,还包括:
重新设置单元,用于根据在分布式实时计算系统的服务器集群中实时获取到的日志数据的数据量,重新设置日志数据流的第二预定数量;
第二初始化单元,用于初始化第二预定数量的工作单元;
其中,所述重新设置日志数据流的预定数量,包括通过配置文件重新设置和通过人机交互界面接收用户输入的数据重新设置。
9、根据权利要求7或8任一项所述的装置,其特征在于,其中,所述第一初始化单元和所述第二初始化单元具体用于
初始化创建工作单元的预定客户端框架的链接,以用于在工作单元中实例化该工作单元的预定客户端框架;
在工作单元中已创建的所述预定客户端框架的链接中,初始化该工作单元的分布式统计量;
其中,所述分布式统计量包括用户访问次数和用户有效访问次数。
10、根据权利要求9所述的装置,其特征在于,所述统计数据库用于存储每天的日志统计数据,所述日志统计数据包括用户访问次数和用户有效访问次数;
所述统计及更新单元,包括:
统计模块,用于针对每一个工作单元,以预定统计频率统计已分配的日志数据流的各个日志数据中的用户访问次数;
判断及统计模块,用于以所述预定统计频率,根据已分配的日志数据流的各个日志数据中的日志请求的状态码判断各个日志数据的日志请求是否为用户有效访问,并根据判断结果统计用户有效访问次数;
实时更新模块,用于通过当前工作单元中实例化的预定客户端框架提供的分布式数据协调服务,实时更新所述统计数据库中当天的用户访问次数和用户有效访问次数。
本发明实施例上述技术方案具有如下有益效果:在分布式实时计算系统的服务器集群中,每台机器只获取各自需要处理的日志数据,从而极大地降低了每台机器的负载;同时,由于极大地减少了对日志文件的执行操作,因此,极大地提高了整个集群的数据处理响应速度;实现了快速、精确地实时统计每天的用户有效访问次数,同时,运维人员能够实时地获取到统计结果,及时地为运维人员在网站运维过程中提供必要的参考依据。
以下结合应用实例对本发明实施例上述技术方案进行详细说明:
本发明应用实例旨在实时、精确地获取到日志数据统计结果。
如图1所示,其中,所述分布式实时计算系统的服务器集群包括分布式实时计算系统Apache Storm。例如,在分布式实时计算系统的服务器集群中,如Apache Storm中,实时获取多个日志数据,如1000万个日志数据;将获取到的1000万个日志数据分割为预定数量,如1000,个数的日志数据流;创建1000个工作单元,并将每一个日志数据流一一对应分配至每一个工作单元;在每一个工作单元中,对当前工作单元中已分配的日志数据流中的1万个日志数据进行统计,并实时更新统计数据库,如DB,的日志统计数据。
在一优选实施例中,步骤102中所述创建所述第一预定数量的工作单元之后,还包括:初始化已创建的第一预定数量的工作单元。
例如,例如,在分布式实时计算系统的服务器集群Apache Storm中,实时获取多个日志数据,如1000万个日志数据;将获取到的1000万个日志数据分割为预定数量,如1000,个数的日志数据流;创建1000个工作单元,并初始化该1000个工作单元。
在一优选实施例中,还包括:根据在分布式实时计算系统的服务器集群中实时获取到的日志数据的数据量,重新设置日志数据流的第二预定数量;初始化第二预定数量的工作单元。
其中,所述重新设置日志数据流的预定数量,包括通过配置文件重新设置和通过人机交互界面接收用户输入的数据重新设置。
例如,在分布式实时计算系统的服务器集群Apache Storm中,通过配置文件设置日志数据流的预定数量,如配置文件A中的设置如下:当获取到的日志数据为1000万个时,设置日志数据流的预定数量为1000,当获取到的日志数据为2000万个时,设置日志数据流的预定数量为2000;根据在分布式实时计算系统的服务器集群中实时获取到的日志数据的数据量为2000万,根据配置文件A中的设置,将日志数据流的预定数量由1000重新设置为2000;随后,初始化2000个工作单元。
通过本实施例,能够及时、快速地调整工作单元的数量,进一步地提高了系统数据处理的效率。
在一优选实施例中,工作单元的初始化,具体包括:初始化创建工作单元的预定客户端框架的链接,以用于在工作单元中实例化该工作单元的预定客户端框架;在工作单元中已创建的所述预定客户端框架的链接中,初始化该工作单元的分布式统计量。
其中,所述分布式统计量包括用户访问次数和用户有效访问次数。
其中,所述预定客户端框架包括客户端框架Apache Curator。
例如,在分布式实时计算系统的服务器集群Apache Storm中,在已创建的1000个工作单元中,分别初始化创建各自的预定客户端框架,如Apache Curator,的链接,以用于在各个工作单元中实例化各自的预定客户端框架Apache Curator;随后,在各个工作单元中已创建的预定客户端框架Apache Curator的链接中,初始化各自的分布式统计量,包括用户访问次数和用户有效访问次数。
通过本实施例,克服了现有技术统计数值与实际值不符的缺点,避免了数据处理时对数据加锁导致系统效率低下的情况,极大地提高了系统的执行效率,实现了系统对数据处理的效率达到了现有技术中对数据未加锁时进行处理的效率。
在一优选实施例中,所述统计数据库用于存储每天的日志统计数据,所述日志统计数据包括用户访问次数和用户有效访问次数。步骤103在每一个工作单元中,对当前工作单元中已分配的日志数据流中的各个日志数据进行统计,并使用得到的日志统计数据实时更新统计数据库,包括:针对每一个工作单元,以预定统计频率统计已分配的日志数据流的各个日志数据中的用户访问次数;以所述预定统计频率,根据已分配的日志数据流的各个日志数据中的日志请求的状态码判断各个日志数据的日志请求是否为用户有效访问,并根据判断结果统计用户有效访问次数;通过当前工作单元中实例化的预定客户端框架提供的分布式数据协调服务,实时更新所述统计数据库中当天的用户访问次数和用户有效访问次数。
例如,在分布式实时计算系统的服务器集群Apache Storm中,预创建统计数据库,如DB,以用于存储每天的日志统计数据;实时获取多个日志数据,如1000万个日志数据;将获取到的1000万个日志数据分割为预定数量,如1000,个数的日志数据流;创建1000个工作单元,并将每一个日志数据流一一对应分配至每一个工作单元;在已创建的1000个工作单元中,分别初始化创建各自的预定客户端框架Apache Curator的链接,并在各自的预定客户端框架Apache Curator的链接中初始化各自的分布式统计量;针对每一个工作单元,以预定统计频率,如30秒统计一次,统计当前工作单元中已分配的日志数据流的1万个日志数据中的用户访问次数,以30秒统计一次的预定统计频率,根据当前工作单元中已分配的日志数据流的1万个日志数据中的日志请求的状态码是否以2开头,若是,确定各个日志数据的日志请求为用户有效访问,并统计已确定的用户有效访问次数;通过所述当前工作单元中实例化的预定客户端框架Apache Curator提供的分布式数据协调服务,实时更新统计数据库DB中当天的用户访问次数和用户有效访问次数。
通过本实施例,由于每个工作单元只暂存预定统计频率的单位时间的统计数据,因此在统计大量数据的情况下,若分布式实时计算系统的服务器集群中的任一节点发生宕机的情况时,对最终统计结果数据的影响可以忽略不计,从而进一步地保证了统计结果数据的精确性。
本发明实施例提供了一种分布式统计日志访问量的装置,可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分布式统计日志访问量的方法,其特征在于,包括:
在分布式实时计算系统的服务器集群中,实时获取多个日志数据;
将获取到的多个日志数据分割为第一预定数量的日志数据流;
创建所述第一预定数量的工作单元,并将每一个日志数据流一一对应分配至每一个工作单元;
在每一个工作单元中,对当前工作单元中已分配的日志数据流中的各个日志数据进行统计,并使用得到的日志统计数据实时更新统计数据库。
2.根据权利要求1所述的方法,其特征在于,所述创建所述第一预定数量的工作单元之后,还包括:初始化已创建的第一预定数量的工作单元。
3.根据权利要求1所述的方法,其特征在于,还包括:
根据在分布式实时计算系统的服务器集群中实时获取到的日志数据的数据量,重新设置日志数据流的第二预定数量;
初始化第二预定数量的工作单元;
其中,所述重新设置日志数据流的预定数量,包括通过配置文件重新设置和通过人机交互界面接收用户输入的数据重新设置。
4.根据权利要求2或3任一项所述的方法,其特征在于,所述工作单元的初始化,具体包括:
初始化创建工作单元的预定客户端框架的链接,以用于在工作单元中实例化该工作单元的预定客户端框架;
在工作单元中已创建的所述预定客户端框架的链接中,初始化该工作单元的分布式统计量;
其中,所述分布式统计量包括用户访问次数和用户有效访问次数。
5.根据权利要求4所述的方法,其特征在于,所述统计数据库用于存储每天的日志统计数据,所述日志统计数据包括用户访问次数和用户有效访问次数;
所述在每一个工作单元中,对当前工作单元中已分配的日志数据流中的各个日志数据进行统计,并使用得到的日志统计数据实时更新统计数据库,包括:
针对每一个工作单元,以预定统计频率统计已分配的日志数据流的各个日志数据中的用户访问次数;
以所述预定统计频率,根据已分配的日志数据流的各个日志数据中的日志请求的状态码判断各个日志数据的日志请求是否为用户有效访问,并根据判断结果统计用户有效访问次数;
通过当前工作单元中实例化的预定客户端框架提供的分布式数据协调服务,实时更新所述统计数据库中当天的用户访问次数和用户有效访问次数。
6.一种分布式统计日志访问量的装置,其特征在于,包括:
获取单元,用于在分布式实时计算系统的服务器集群中,实时获取多个日志数据;
分割单元,用于将获取到的多个日志数据分割为第一预定数量的日志数据流;
创建及分配单元,用于创建所述第一预定数量的工作单元,并将每一个日志数据流一一对应分配至每一个工作单元;
统计及更新单元,用于在每一个工作单元中,对当前工作单元中已分配的日志数据流中的各个日志数据进行统计,并使用得到的日志统计数据实时更新统计数据库。
7.根据权利要求6所述的装置,其特征在于,还包括:
第一初始化单元,用于初始化已创建的第一预定数量的工作单元。
8.根据权利要求6所述的装置,其特征在于,还包括:
重新设置单元,用于根据在分布式实时计算系统的服务器集群中实时获取到的日志数据的数据量,重新设置日志数据流的第二预定数量;
第二初始化单元,用于初始化第二预定数量的工作单元;
其中,所述重新设置日志数据流的预定数量,包括通过配置文件重新设置和通过人机交互界面接收用户输入的数据重新设置。
9.根据权利要求7或8任一项所述的装置,其特征在于,其中,所述第一初始化单元和所述第二初始化单元,包括:
初始化模块,用于针对待初始化的工作单元,初始化创建工作单元的预定客户端框架的链接,以用于在工作单元中实例化该工作单元的预定客户端框架;
在工作单元中已创建的所述预定客户端框架的链接中,初始化该工作单元的分布式统计量;
其中,所述分布式统计量包括用户访问次数和用户有效访问次数。
10.根据权利要求9所述的装置,其特征在于,所述统计数据库用于存储每天的日志统计数据,所述日志统计数据包括用户访问次数和用户有效访问次数;
所述统计及更新单元,包括:
统计模块,用于针对每一个工作单元,以预定统计频率统计已分配的日志数据流的各个日志数据中的用户访问次数;
判断及统计模块,用于以所述预定统计频率,根据已分配的日志数据流的各个日志数据中的日志请求的状态码判断各个日志数据的日志请求是否为用户有效访问,并根据判断结果统计用户有效访问次数;
实时更新模块,用于通过当前工作单元中实例化的预定客户端框架提供的分布式数据协调服务,实时更新所述统计数据库中当天的用户访问次数和用户有效访问次数。
CN201711475272.7A 2017-12-29 2017-12-29 一种分布式统计日志访问量的方法及装置 Active CN108363649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711475272.7A CN108363649B (zh) 2017-12-29 2017-12-29 一种分布式统计日志访问量的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711475272.7A CN108363649B (zh) 2017-12-29 2017-12-29 一种分布式统计日志访问量的方法及装置

Publications (2)

Publication Number Publication Date
CN108363649A true CN108363649A (zh) 2018-08-03
CN108363649B CN108363649B (zh) 2021-04-16

Family

ID=63010381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711475272.7A Active CN108363649B (zh) 2017-12-29 2017-12-29 一种分布式统计日志访问量的方法及装置

Country Status (1)

Country Link
CN (1) CN108363649B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783773A (zh) * 2018-12-14 2019-05-21 微梦创科网络科技(中国)有限公司 一种确定网站接口非正常流量的方法及装置
CN110262951A (zh) * 2019-06-10 2019-09-20 天翼电子商务有限公司 一种业务秒级监控方法及系统、存储介质及客户端
CN110825943A (zh) * 2019-10-23 2020-02-21 支付宝(杭州)信息技术有限公司 一种生成用户访问路径树数据的方法、系统及设备
CN111506479A (zh) * 2020-04-20 2020-08-07 深圳前海微众银行股份有限公司 一种日志数据处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103178982A (zh) * 2011-12-23 2013-06-26 阿里巴巴集团控股有限公司 日志分析方法和装置
CN103595571A (zh) * 2013-11-20 2014-02-19 北京国双科技有限公司 网站访问日志的预处理方法、装置及系统
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN105868075A (zh) * 2016-03-31 2016-08-17 浪潮通信信息系统有限公司 一种实时监控分析大量日志的系统及方法
CN107436806A (zh) * 2016-05-27 2017-12-05 苏宁云商集团股份有限公司 一种资源调度方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103178982A (zh) * 2011-12-23 2013-06-26 阿里巴巴集团控股有限公司 日志分析方法和装置
CN103595571A (zh) * 2013-11-20 2014-02-19 北京国双科技有限公司 网站访问日志的预处理方法、装置及系统
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN105868075A (zh) * 2016-03-31 2016-08-17 浪潮通信信息系统有限公司 一种实时监控分析大量日志的系统及方法
CN107436806A (zh) * 2016-05-27 2017-12-05 苏宁云商集团股份有限公司 一种资源调度方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何雅琴等: "网络访问日志实时分析系统在Storm平台上的实现", 《信息化研究》 *
戴菲: "基于Storm的实时计算系统的研究与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
罗文韬: "大型电商网站服务系统关键改进的研究和实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783773A (zh) * 2018-12-14 2019-05-21 微梦创科网络科技(中国)有限公司 一种确定网站接口非正常流量的方法及装置
CN109783773B (zh) * 2018-12-14 2022-11-11 微梦创科网络科技(中国)有限公司 一种确定网站接口非正常流量的方法及装置
CN110262951A (zh) * 2019-06-10 2019-09-20 天翼电子商务有限公司 一种业务秒级监控方法及系统、存储介质及客户端
CN110825943A (zh) * 2019-10-23 2020-02-21 支付宝(杭州)信息技术有限公司 一种生成用户访问路径树数据的方法、系统及设备
CN110825943B (zh) * 2019-10-23 2023-10-10 支付宝(杭州)信息技术有限公司 一种生成用户访问路径树数据的方法、系统及设备
CN111506479A (zh) * 2020-04-20 2020-08-07 深圳前海微众银行股份有限公司 一种日志数据处理方法及装置

Also Published As

Publication number Publication date
CN108363649B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN108363649A (zh) 一种分布式统计日志访问量的方法及装置
US9223613B2 (en) Managing service level objectives for storage workloads
US8429097B1 (en) Resource isolation using reinforcement learning and domain-specific constraints
US9122739B1 (en) Evaluating proposed storage solutions
US9104572B1 (en) Automated root cause analysis
US9406029B2 (en) Modeler for predicting storage metrics
US10353738B2 (en) Resource allocation based on social networking trends in a networked computing environment
US8943269B2 (en) Apparatus and method for meeting performance metrics for users in file systems
CN107465651A (zh) 网络攻击检测方法及装置
US20190222479A1 (en) Production software application performance and resiliency testing
JP2015507268A (ja) クライアント使用状況およびシステムメトリクスに基づく比例的なサービス品質
US10387372B2 (en) Value-based differential data
US20220043822A1 (en) Shadow experiments for serverless multi-tenant cloud services
EP2843599A1 (en) System and method to predict elapsed response time for a query during application development stage
CN108228390A (zh) 数据回档方法及装置
US11003493B2 (en) Application and storage based scheduling
CN104866402A (zh) 一种测试服务器的方法及装置
CN106250397A (zh) 一种用户行为特征的分析方法及装置
CN107704328A (zh) 客户端访问文件系统的方法、系统、装置及存储介质
CN107239572A (zh) 一种存储管理软件的数据缓存方法及装置
CN107689969A (zh) 一种缓存策略的确定方法及装置
CN116186777A (zh) 一种mpp数据库的审计方法及装置
JP6378289B2 (ja) データベースにおいてホットページを決定するための方法および装置
CN106487919B (zh) 基于PaaS平台的HTTP请求处理方法、装置及系统
US20230089565A1 (en) Identifying slow nodes in a computing environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant