CN105490854A - 实时日志收集方法、系统和应用服务器集群 - Google Patents

实时日志收集方法、系统和应用服务器集群 Download PDF

Info

Publication number
CN105490854A
CN105490854A CN201510923078.5A CN201510923078A CN105490854A CN 105490854 A CN105490854 A CN 105490854A CN 201510923078 A CN201510923078 A CN 201510923078A CN 105490854 A CN105490854 A CN 105490854A
Authority
CN
China
Prior art keywords
user
behavior
real
user terminal
application server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510923078.5A
Other languages
English (en)
Other versions
CN105490854B (zh
Inventor
欧樑
杨华涛
韦杰
林岳
顾思斌
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Chuanxian Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuanxian Network Technology Shanghai Co Ltd filed Critical Chuanxian Network Technology Shanghai Co Ltd
Priority to CN201510923078.5A priority Critical patent/CN105490854B/zh
Publication of CN105490854A publication Critical patent/CN105490854A/zh
Application granted granted Critical
Publication of CN105490854B publication Critical patent/CN105490854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种实时日志收集方法、系统和应用服务器集群。其中,所述方法包括:在用户终端打开第一应用服务器所提供网页的情况下,第一应用服务器控制用户终端运行预设的日志记录脚本;在日志记录脚本检测到用户进行设定的临时用户行为的情况下,生成包括与临时用户行为相关的临时日志信息的HTTP请求,并从用户终端向实时日志收集系统的第一接收源发送HTTP请求;以及第一接收源将HTTP请求经由实时日志收集系统的第一Kafka通道发送至存储系统。根据本发明实施例的实时日志收集方法、系统和应用服务器集群能够快速、准确地收集用户行为日志,并快速、准确地获取与关注用户行为相关的信息。

Description

实时日志收集方法、系统和应用服务器集群
技术领域
本发明涉及互联网技术领域,尤其涉及一种实时日志收集方法、系统和应用服务器集群。
背景技术
对于大型互联网门户,每天都有上千万用户的访问量。可以通过收集和记录用户对网站功能的消费,然后对这些消费进行离线分析,为网站更好地向用户提供个性化服务提供数据依据。并且,还可以为网安在应对网络热门事件或突发事件时提供调查依据。
传统收集日志的方法是通过前端(客户端)在网页中添加JavaScript脚本,事先确定动作属性(例如播放视频和发布视频等),将用户的点击动作汇总到远程服务器来分析。这种方法存在能够通过模拟用户行为来捏造点击数据等的缺陷。
目前还有一种收集日志的方法,在后端生成日志后,通过scp命令上传、下载或通过rsync命令定时同步等方式收集汇总,然后通过机器脚本分析、或者人工观察统计、或者图形绘制等方式来分析。这种方法的实时性较差。
另外,由于上述两种方法均需要人工干预,因此对数据规模的适用性较差,无法支持网站持续发展产生的大量日志,并且人工干预过多,不能保证较高的准确性。
发明内容
技术问题
有鉴于此,本发明要解决的技术问题是,如何快速、准确地收集用户行为日志,并快速、准确地获取与关注用户行为相关的信息。
解决方案
根据本发明的一个方面,提供了一种实时日志收集方法,用于收集用户行为日志,包括:在用户终端打开第一应用服务器所提供网页的情况下,所述第一应用服务器控制所述用户终端运行预设的日志记录脚本;在所述日志记录脚本检测到所述用户进行设定的临时用户行为的情况下,生成包括与所述临时用户行为相关的临时日志信息的超文本传输协议HTTP请求,并从所述用户终端向实时日志收集系统的第一接收源发送所述HTTP请求,所述临时日志信息包括所述用户终端的IP地址、进行所述临时用户行为的时间和用户ID中的至少一项;以及所述第一接收源将所述HTTP请求经由所述实时日志收集系统的第一卡夫卡Kafka通道发送至存储系统。
对于上述实时日志收集方法,在一种可能的实现方式中,在所述第一接收源接收到从所述用户终端发送的所述HTTP请求之后,还包括:所述实时日志收集系统的拦截器根据所述HTTP请求,统计第一时间间隔内进行所述临时用户行为的次数。
对于上述实时日志收集方法,在一种可能的实现方式中,还包括:第二应用服务器记录与所述用户行为相关的行为属性,并将在第二时间间隔内所记录的行为属性按照预先设定的日志格式生成日志文件,所述行为属性包括所述用户终端的IP地址、所述用户行为的名称、进行所述用户行为的时间和用户ID中的至少一项;所述实时日志收集系统的代理模块在检测到存在所述日志文件的情况下,将所述日志文件发送至所述实时日志收集系统的第二接收源;以及所述第二接收源将所述日志文件经由所述实时日志收集系统的第二Kafka通道发送至所述存储系统。
对于上述实时日志收集方法,在一种可能的实现方式中,还包括:所述实时日志收集系统的拦截器根据所述日志文件统计第三时间间隔内进行特定用户行为的次数,并在统计出的次数大于设定阈值的情况下,发送异常信息。
对于上述实时日志收集方法,在一种可能的实现方式中,所述存储系统包括分布式文件系统和/或数据库。
根据本发明的另一个方面,提供了一种实时日志收集系统,用于收集用户行为日志,包括:第一接收源,与用户终端连接,用于从所述用户终端接收包括与临时用户行为相关的临时日志信息的HTTP请求,所述临时日志信息包括所述用户终端的IP地址、进行所述临时用户行为的时间和用户ID中的至少一项,其中,在所述用户终端打开第一应用服务器所提供网页的情况下,所述第一应用服务器控制所述用户终端运行预设的日志记录脚本,在所述日志记录脚本检测到所述用户进行设定的临时用户行为的情况下,生成所述HTTP请求;以及第一Kafka通道,与所述第一接收源连接,用于从所述第一接收源接收所述HTTP请求,并发送至存储系统。
对于上述实时日志收集系统,在一种可能的实现方式中,还包括:拦截器,与所述第一接收源和所述第一Kafka通道分别连接,用于从所述第一接收源拦截所述HTTP请求;以及分析模块,与所述拦截器连接,用于从所述拦截器接收所述HTTP请求,并根据所述HTTP请求,统计第一时间间隔内进行所述临时用户行为的次数。
对于上述实时日志收集系统,在一种可能的实现方式中,还包括:代理模块,与第二应用服务器连接,用于检测是否存在日志文件,在检测到存在所述日志文件的情况下,获取所述日志文件,其中,第二应用服务器记录与所述用户行为相关的行为属性,并将在第二时间间隔内所记录的行为属性按照预先设定的日志格式生成所述日志文件,所述行为属性包括所述用户终端的IP地址、所述用户行为的名称、进行所述用户行为的时间和用户ID中的至少一项;第二接收源,与所述代理模块连接,用于从所述代理模块接收所述日志文件;以及第二Kafka通道,与所述第二接收源连接,用于从所述第二接收源接收所述日志文件,并发送至所述存储系统。
对于上述实时日志收集系统,在一种可能的实现方式中,所述拦截器还与所述第二接收源和所述第二Kafka通道分别连接,并且用于从所述第二接收源拦截所述日志文件;所述分析模块还用于统计第三时间间隔内进行特定用户行为的次数,并在统计出的次数大于设定阈值的情况下,发送异常信息。
根据本发明的又一个方面,提供了一种应用服务器集群,包括第一应用服务器,所述第一应用服务器包括:脚本设置模块,与所述用户终端连接,用于预设日志记录脚本;网页提供模块,与所述用户终端连接,用于为所述用户终端提供网页服务;控制模块,与所述用户终端连接,用于在所述用户终端打开所述网页提供模块所提供网页的情况下,控制所述用户终端运行所述日志记录脚本;以及HTTP请求生成模块,与所述用户终端连接,在所述日志记录脚本检测到所述用户进行设定的临时用户行为的情况下,生成包括与所述临时用户行为相关的临时日志信息的超文本传输协议HTTP请求,所述临时日志信息包括所述用户终端的IP地址、进行所述临时用户行为的时间和用户ID中的至少一项。
对于上述应用服务器集群,在一种可能的实现方式中,还包括多个第二应用服务器,其中,各所述第二应用服务器包括:记录模块,用于记录与用户行为相关的行为属性;以及日志文件生成模块,与所述记录模块连接,用于将在第二时间间隔内所记录的行为属性按照预先设定的日志格式生成日志文件,所述行为属性包括所述用户终端的IP地址、所述用户行为的名称、进行所述用户行为的时间和用户ID中的至少一项。
有益效果
通过在用户终端预先设置日志记录脚本,并在用户终端打开特定网页的情况下,运行该日志记录脚本,在日志记录脚本检测到用户进行设定的临时用户行为的情况下,生成包括与临时用户行为相关的临时日志信息的超文本传输协议HTTP请求,并从所述用户终端向实时日志收集系统的第一接收源发送所述HTTP请求,第一接收源将HTTP请求经由实时日志收集系统的第一卡夫卡Kafka通道发送至存储系统。根据本发明实施例的实时日志收集方法、实时日志收集系统和应用服务器集群能够快速、准确地收集用户行为日志,并快速、准确地获取与关注用户行为相关的信息。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。
图1示出根据本发明一实施例的实时日志收集方法的流程示意图;
图2示出根据本发明另一实施例的实时日志收集方法的流程示意图;
图3示出根据本发明又一实施例的实时日志收集方法的流程示意图;
图4示出根据本发明一实施例的实时日志收集系统的结构框图;
图5示出根据本发明一实施例的应用服务器集群的结构框图。
具体实施方式
以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
实施例1
图1示出根据本发明一实施例的实时日志收集方法的流程图。如图1所示,该实时日志收集方法主要可以包括:步骤S110至步骤S130。
具体地,步骤S110、在用户终端打开第一应用服务器所提供网页的情况下,第一应用服务器控制所述用户终端运行预设的日志记录脚本。其中,该日志记录脚本可以是为了记录某一临时上线的活动或者关注的活动的用户行为信息而设置的,临时上线的活动例如可以是限时秒杀抢购活动等,关注的活动例如可以是播放特定的视频等。
步骤S120、在日志记录脚本检测到用户进行设定的临时用户行为的情况下,生成包括与临时用户行为相关的临时日志信息的超文本传输协议HTTP请求,并从用户终端向实时日志收集系统的第一接收源发送HTTP请求。其中,临时日志信息可以包括用户终端的IP地址、进行临时用户行为的时间和用户ID中的至少一项。
步骤S130、第一接收源将HTTP请求经由实时日志收集系统的第一卡夫卡Kafka通道发送至存储系统。
这样,根据本发明上述实施例的实时日志收集方法能够快速、准确地收集用户行为日志,并快速、准确地获取与关注用户行为相关的信息。
在一种可能的实现方式中,实时日志收集系统优选Flume系统,该系统是Cloudera提供的一个高可用、高可靠的分布式的海量日志采集、聚合和传输的系统。
在一种可能的实现方式中,所述存储系统可以包括分布式文件系统和/或数据库。分布式文件系统可以优选Hadoop分布式文件系统(HDFS),数据块可以优选Infobright这一开源的类MySQL的数据仓库。
在一种可能的实现方式中,如图2所示,在步骤S120之后,还可以包括:步骤S140、实时日志收集系统的拦截器根据所述HTTP请求,统计第一时间间隔内进行临时用户行为的次数。当然,也可以统计第一时间间隔内进行该临时用户行为的用户ID和IP地址等,也可以统计进行该临时用户次数较多或较少的时间段。另外,第一时间间隔可以根据实际需要灵活设置,例如可以设置为1天或者1小时等。这样,根据所统计出的与临时用户行为(也就是关注用户行为)相关的信息,能够使得网站更好地向用户提供个性化服务。
实施例2
图3示出根据本发明另一实施例的实时日志收集方法的流程示意图。如图3所示,根据本发明实施例的实时日志收集方法还可以包括:步骤S210至步骤S230。其中,需要说明的是,图1中示出的步骤S110至步骤S130(或者图2中示出的步骤S110至步骤S140)与图3中示出的步骤S210至步骤S230(或者图3中示出的步骤S210至步骤S240)可以并行执行,而不分先后顺序。
具体地,步骤S210、第二应用服务器记录与用户行为相关的行为属性,并将在第二时间间隔内所记录的行为属性按照预先设定的日志格式生成日志文件。其中,行为属性可以包括用户终端的IP地址、用户行为的名称(可以是用户所进行的具体操作内容,例如发送的评论内容和上传的视频的编号等)、进行用户行为的时间和用户ID中的至少一项。另外,与实施例1中步骤S110不同的是,步骤S210可以记录用户在用户终端进行的所有用户行为,即只要用户在用户终端进行了用户行为,第二应用服务器就会对此做出相应的记录。
在一种可能的实现方式中,按照预先设定的日志格式生成日志文件可以是将行为属性按照统一的顺序排列来生成日志文件,以便于后续对日志文件的快速、准确地解析,从而能够基于解析的结果进一步快速、准确地分析和统计所关注的信息。另外,第二时间间隔也可以根据实际需要灵活设置,例如可以设置为1分钟或者10分钟等。
步骤S220、实时日志收集系统的代理模块在检测到存在日志文件的情况下,将日志文件发送至实时日志收集系统的第二接收源。其中,第二应用服务器在生成了日志文件的情况下,可以存在本地存储器,也可以通过有限网络或无线网络等方式传输至特定存储器,在日志文件存储在本地存储器的情况下,所述代理模块从本地存储器获取日志文件,在日志文件存储在特定存储器的情况下,所述代理模块从特定存储器获取日志文件。
步骤S230、第二接收源将日志文件经由实时日志收集系统的第二Kafka通道发送至存储系统。
这样,根据本发明上述实施例的实时日志收集方法能够快速、准确地收集用户在用户终端所进行的所有用户行为的日志。
在一种可能的实现方式中,在步骤S220之后,还可以包括步骤S240、实时日志收集系统的拦截器根据所述日志文件统计第三时间间隔内进行特定用户行为的次数,并在统计出的次数大于设定阈值的情况下,发送异常信息。例如,可以通过邮件、短信、微信等方式将异常信息直接发送至网络管理员。其中,可以根据实际需要来设置上述的特定用户行为,特定用户行为例如可以是某一话题的评论、某一视频的播放和下载、上传视频等。假设将特定用户行为设置为某一话题的评论,则在统计出的在第三时间间隔内该话题的评论次数大于设定阈值的情况下,将该话题认定为热门话题。
另外,可以在预定的时间间隔内例如30分钟对存储至存储系统的日志文件进行分析,以生成表示在第三时间间隔内进行特定用户行为的次数的统计值(例如最大值、最小值和平均值等)的经验文件。根据该经验文件确定所述设定阈值,例如根据经验文件可知,一般情况下,第三时间间隔内进行特定用户行为的次数的最大值为100,最小值为50,平均值为80,则可以将设定阈值设置为120。
本领域技术人员应能理解,还可以统计第三时间间隔内进行上述特定用户行为的用户ID和IP地址等,也可以统计进行上述特定用户行为次数较多或较少的时间段。当然,第三时间间隔也可以根据实际需要灵活设置,例如可以设置为1分钟、10分钟或者1天等。
这样,根据本发明上述实施例的实时日志收集方法还能够快速、准确地获取与特定用户行为(也就是关注用户行为)相关的信息,根据所获取的信息,能够使得网站更好地向用户提供个性化服务。
实施例3
图4示出根据本发明一实施例的实时日志收集系统的结构框图。如图4所示,根据本发明实施例的实时日志收集系统主要可以包括:第一接收源(source)410和第一Kafka通道(channel)420。具体地,第一接收源410与用户终端200连接,用于从用户终端200接收包括与临时用户行为相关的临时日志信息的HTTP请求。其中,所述临时日志信息可以包括用户终端200的IP地址、进行临时用户行为的时间和用户ID中的至少一项。在用户终端200打开第一应用服务器100所提供网页的情况下,第一应用服务器100控制用户终端200运行预设的日志记录脚本,在所述日志记录脚本检测到所述用户进行设定的临时用户行为的情况下,生成所述HTTP请求。第一Kafka通道420与第一接收源410连接,用于从第一接收源410接收所述HTTP请求,并发送至存储系统。
在一种可能的实现方式中,所述实时日志收集系统还可以包括拦截器430和分析模块440。其中,拦截器430与第一接收源410和第一Kafka通道420分别连接,用于从第一接收源410拦截所述HTTP请求;分析模块440与拦截器430连接,用于从拦截器430接收HTTP请求,并根据HTTP请求,统计第一时间间隔内进行临时用户行为的次数。
实时日志收集系统的上述部件可以具体参考实施例1中步骤S110至S140的描述。并且,根据本发明上述实施例的实时日志收集系统能够实现与实施例1相同的效果,即能够快速、准确地收集用户行为日志,并快速、准确地获取与关注用户行为相关的信息。另外,根据所获取的与关注用户行为相关的信息,能够使得网站更好地向用户提供个性化服务。
在一种可能的实现方式中,所述实时日志收集系统还可以包括代理模块450、第二接收源(source)460和第二Kafka通道(channel)470。
具体地,代理模块450与第二应用服务器300连接,用于检测是否存在日志文件,在检测到存在所述日志文件的情况下,获取所述日志文件。其中,第二应用服务器300记录与用户行为相关的行为属性,并将在第二时间间隔内所记录的行为属性按照预先设定的日志格式生成所述日志文件。行为属性可以包括所述用户终端的IP地址、所述用户行为的名称、进行所述用户行为的时间和用户ID中的至少一项。第二接收源460与代理模块450连接,用于从代理模块450接收所述日志文件。第二Kafka通道470与第二接收源460连接,用于从第二接收源460接收日志文件,并发送至存储系统。
在一种可能的实现方式中,拦截器430还可以与第二接收源460和第二Kafka通道470分别连接,并且用于从所述第二接收源460拦截所述日志文件;分析模块440还用于统计第三时间间隔内进行特定用户行为的次数,并在统计出的次数大于设定阈值的情况下,发送异常信息。
其中,在上述实现方式中,用于拦截日志文件的拦截器430与用于拦截HTTP请求的拦截器430为同一个拦截器。本领域技术人员应能理解,本发明不限于此,也可以单独设置拦截器。拦截只是做同一类型操作的次数累加,可以不用存储具体数据。累加的数据可以存储于其它服务器内存中,或者归档到其它服务器内存中,以文件格式存储。
另外,拦截器拦截的只是一个统计数据,与主体数据分开,被拦截的HTTP请求和日志文件仍然会通过通道发送至存储系统中。而且拦截的数据具有短暂的时效性。无需持久存储,简单内存存储就可以。
实时日志收集系统的上述部件可以具体参考实施例2中步骤S210至S240的描述。并且,根据本发明上述实施例的实时日志收集系统能够实现与实施例2相同的效果,即能够快速、准确地收集用户行为日志,并快速、准确地获取与关注用户行为相关的信息。并且根据所获取的与关注用户行为相关的信息,能够使得网站更好地向用户提供个性化服务。
另外,根据本发明实施例的实时日志收集系统优选可以基于ApacheFlume这个开源框架,该框架灵活易用,可以自己组织数据源的接收方式、传输介质以及实际的接收方技术。并且,文件收集具有跨平台性和可扩展性,并能够保证文件传输的有效性和可靠性。
实际试验数据表明,该架构体系可以有效处理大批量日志的收集和传输,对日志统计和离线分析有巨大帮助。非线上服务器处理每分钟38兆的日志文件,只需占用0.3%CPU和3.7%的内存消耗。
实施例4
图5示出根据本发明一实施例的应用服务器集群的结构框图。如图5所示,该应用服务器集群可以包括与用户终端200连接的第一应用服务器100,其中,第一应用服务器100可以包括与用户终端200分别连接的脚本设置模块110、网页提供模块120、控制模块130和HTTP请求生成模块140。
具体地,脚本设置模块110用于预设日志记录脚本;网页提供模块120用于为所述用户终端提供网页服务;控制模块130用于在用户终端200打开所述网页提供模块120所提供网页的情况下,控制用户终端200运行所述日志记录脚本;HTTP请求生成模块140在所述日志记录脚本检测到所述用户进行设定的临时用户行为的情况下,生成包括与所述临时用户行为相关的临时日志信息的超文本传输协议HTTP请求,所述临时日志信息包括所述用户终端的IP地址、进行所述临时用户行为的时间和用户ID中的至少一项。
第一应用服务器100的上述部件可以具体参考实施例1中对于步骤S110和步骤S120的描述。并且,根据本发明上述实施例的应用服务器集群能够辅助快速、准确地收集用户行为日志。
在一种可能的实现方式中,本实施例的应用服务器集群还可以包括多个第二应用服务器。作为示例,图5中仅示出一个第二应用服务器300,该第二应用服务器300可以包括:记录模块310和日志文件生成模块320。其中,记录模块310用于记录与用户行为相关的行为属性;日志文件生成模块320与记录模块310连接,用于将在第二时间间隔内所记录的行为属性按照预先设定的日志格式生成日志文件,所述行为属性包括所述用户终端的IP地址、所述用户行为的名称、进行所述用户行为的时间和用户ID中的至少一项。
第二应用服务器300的上述部件可以具体参考实施例2中对于步骤S210和步骤S220的描述。并且,根据本发明上述实施例的应用服务器集群能够快速、准确地辅助收集用户行为日志,并且能够快速、准确地辅助获取与关注用户行为相关的信息。另外,根据所获取的与关注用户行为相关的信息,能够使得网站更好地向用户提供个性化服务。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种实时日志收集方法,用于收集用户行为日志,其特征在于,包括:
在用户终端打开第一应用服务器所提供网页的情况下,所述第一应用服务器控制所述用户终端运行预设的日志记录脚本;
在所述日志记录脚本检测到所述用户进行设定的临时用户行为的情况下,生成包括与所述临时用户行为相关的临时日志信息的超文本传输协议HTTP请求,并从所述用户终端向实时日志收集系统的第一接收源发送所述HTTP请求,所述临时日志信息包括所述用户终端的IP地址、进行所述临时用户行为的时间和用户ID中的至少一项;以及
所述第一接收源将所述HTTP请求经由所述实时日志收集系统的第一卡夫卡Kafka通道发送至存储系统。
2.根据权利要求1所述的实时日志收集方法,其特征在于,在所述第一接收源接收到从所述用户终端发送的所述HTTP请求之后,还包括:
所述实时日志收集系统的拦截器根据所述HTTP请求,统计第一时间间隔内进行所述临时用户行为的次数。
3.根据权利要求1或2所述的实时日志收集方法,其特征在于,还包括:
第二应用服务器记录与所述用户行为相关的行为属性,并将在第二时间间隔内所记录的行为属性按照预先设定的日志格式生成日志文件,所述行为属性包括所述用户终端的IP地址、所述用户行为的名称、进行所述用户行为的时间和用户ID中的至少一项;
所述实时日志收集系统的代理模块在检测到存在所述日志文件的情况下,将所述日志文件发送至所述实时日志收集系统的第二接收源;以及
所述第二接收源将所述日志文件经由所述实时日志收集系统的第二Kafka通道发送至所述存储系统。
4.根据权利要求3所述的实时日志收集方法,其特征在于,还包括:
所述实时日志收集系统的拦截器根据所述日志文件统计第三时间间隔内进行特定用户行为的次数,并在统计出的次数大于设定阈值的情况下,发送异常信息。
5.根据权利要求1至4中任一项所述的实时日志收集方法,其特征在于,所述存储系统包括分布式文件系统和/或数据库。
6.一种实时日志收集系统,用于收集用户行为日志,其特征在于,包括:
第一接收源,与用户终端连接,用于从所述用户终端接收包括与临时用户行为相关的临时日志信息的HTTP请求,所述临时日志信息包括所述用户终端的IP地址、进行所述临时用户行为的时间和用户ID中的至少一项,其中,在所述用户终端打开第一应用服务器所提供网页的情况下,所述第一应用服务器控制所述用户终端运行预设的日志记录脚本,在所述日志记录脚本检测到所述用户进行设定的临时用户行为的情况下,生成所述HTTP请求;以及
第一Kafka通道,与所述第一接收源连接,用于从所述第一接收源接收所述HTTP请求,并发送至存储系统。
7.根据权利要求6所述的实时日志收集系统,其特征在于,还包括:
拦截器,与所述第一接收源和所述第一Kafka通道分别连接,用于从所述第一接收源拦截所述HTTP请求;以及
分析模块,与所述拦截器连接,用于从所述拦截器接收所述HTTP请求,并根据所述HTTP请求,统计第一时间间隔内进行所述临时用户行为的次数。
8.根据权利要求7所述的实时日志收集系统,其特征在于,还包括:
代理模块,与第二应用服务器连接,用于检测是否存在日志文件,在检测到存在所述日志文件的情况下,获取所述日志文件,其中,第二应用服务器记录与所述用户行为相关的行为属性,并将在第二时间间隔内所记录的行为属性按照预先设定的日志格式生成所述日志文件,所述行为属性包括所述用户终端的IP地址、所述用户行为的名称、进行所述用户行为的时间和用户ID中的至少一项;
第二接收源,与所述代理模块连接,用于从所述代理模块接收所述日志文件;以及
第二Kafka通道,与所述第二接收源连接,用于从所述第二接收源接收所述日志文件,并发送至所述存储系统。
9.根据权利要求8所述的实时日志收集系统,其特征在于,
所述拦截器还与所述第二接收源和所述第二Kafka通道分别连接,并且用于从所述第二接收源拦截所述日志文件;
所述分析模块还用于统计第三时间间隔内进行特定用户行为的次数,并在统计出的次数大于设定阈值的情况下,发送异常信息。
10.一种应用服务器集群,其特征在于,包括第一应用服务器,所述第一应用服务器包括:
脚本设置模块,与用户终端连接,用于预设日志记录脚本;
网页提供模块,与所述用户终端连接,用于为所述用户终端提供网页服务;
控制模块,与所述用户终端连接,用于在所述用户终端打开所述网页提供模块所提供网页的情况下,控制所述用户终端运行所述日志记录脚本;以及
HTTP请求生成模块,与所述用户终端连接,在所述日志记录脚本检测到所述用户进行设定的临时用户行为的情况下,生成包括与所述临时用户行为相关的临时日志信息的超文本传输协议HTTP请求,所述临时日志信息包括所述用户终端的IP地址、进行所述临时用户行为的时间和用户ID中的至少一项。
11.根据权利要求10所述的应用服务器集群,其特征在于,还包括多个第二应用服务器,其中,各所述第二应用服务器包括:
记录模块,用于记录与用户行为相关的行为属性;以及
日志文件生成模块,与所述记录模块连接,用于将在第二时间间隔内所记录的行为属性按照预先设定的日志格式生成日志文件,所述行为属性包括所述用户终端的IP地址、所述用户行为的名称、进行所述用户行为的时间和用户ID中的至少一项。
CN201510923078.5A 2015-12-11 2015-12-11 实时日志收集方法、系统和应用服务器集群 Active CN105490854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510923078.5A CN105490854B (zh) 2015-12-11 2015-12-11 实时日志收集方法、系统和应用服务器集群

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510923078.5A CN105490854B (zh) 2015-12-11 2015-12-11 实时日志收集方法、系统和应用服务器集群

Publications (2)

Publication Number Publication Date
CN105490854A true CN105490854A (zh) 2016-04-13
CN105490854B CN105490854B (zh) 2019-03-12

Family

ID=55677597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510923078.5A Active CN105490854B (zh) 2015-12-11 2015-12-11 实时日志收集方法、系统和应用服务器集群

Country Status (1)

Country Link
CN (1) CN105490854B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105979297A (zh) * 2016-06-14 2016-09-28 天脉聚源(北京)传媒科技有限公司 一种收看时长统计方法及系统
CN106649766A (zh) * 2016-12-27 2017-05-10 北京锐安科技有限公司 一种基于kafka的消息处理方法
CN106878397A (zh) * 2017-01-21 2017-06-20 浙江沛宏网络科技有限公司 一种web用户行为反馈方法及系统
CN107305521A (zh) * 2016-04-20 2017-10-31 百度在线网络技术(北京)有限公司 日志记录方法和装置
CN107465651A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 网络攻击检测方法及装置
CN107911387A (zh) * 2017-12-08 2018-04-13 国网河北省电力有限公司电力科学研究院 用电信息采集系统账号异常登陆和异常操作的监控方法
CN108228379A (zh) * 2018-01-24 2018-06-29 广东远峰汽车电子有限公司 日志统计方法、收集服务器、分布式服务器及汇总服务器
CN109271106A (zh) * 2018-08-31 2019-01-25 华为技术有限公司 消息存储、读取方法及装置、服务器、存储介质
CN110245059A (zh) * 2019-05-20 2019-09-17 平安普惠企业管理有限公司 一种数据处理方法、设备及存储介质
CN110493355A (zh) * 2019-09-11 2019-11-22 无锡华云数据技术服务有限公司 一种系统日志的下载方法及装置
CN111049899A (zh) * 2019-12-11 2020-04-21 贝壳技术有限公司 kafka消息存储系统、方法、装置及计算机可读存储介质
CN111625583A (zh) * 2020-05-21 2020-09-04 广西电网有限责任公司 业务数据处理方法、装置、计算机设备和存储介质
CN111666193A (zh) * 2019-03-08 2020-09-15 阿里巴巴集团控股有限公司 基于实时日志解析的终端功能监控与测试的方法与系统
CN113179302A (zh) * 2021-04-19 2021-07-27 杭州海康威视系统技术有限公司 日志系统以及日志数据的收集方法和收集装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079768A (zh) * 2006-05-25 2007-11-28 阿里巴巴公司 一种统计网页链接点击数据的方法
CN103401934A (zh) * 2013-08-06 2013-11-20 广州唯品会信息科技有限公司 获取日志数据的方法和系统
CN104579789A (zh) * 2015-01-23 2015-04-29 广东能龙教育股份有限公司 一种基于消息队列的海量用户行为数据采集方法与系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079768A (zh) * 2006-05-25 2007-11-28 阿里巴巴公司 一种统计网页链接点击数据的方法
CN103401934A (zh) * 2013-08-06 2013-11-20 广州唯品会信息科技有限公司 获取日志数据的方法和系统
CN104579789A (zh) * 2015-01-23 2015-04-29 广东能龙教育股份有限公司 一种基于消息队列的海量用户行为数据采集方法与系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305521A (zh) * 2016-04-20 2017-10-31 百度在线网络技术(北京)有限公司 日志记录方法和装置
CN107465651A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 网络攻击检测方法及装置
CN107465651B (zh) * 2016-06-06 2020-10-02 腾讯科技(深圳)有限公司 网络攻击检测方法及装置
CN105979297B (zh) * 2016-06-14 2019-03-19 天脉聚源(北京)传媒科技有限公司 一种收看时长统计方法及系统
CN105979297A (zh) * 2016-06-14 2016-09-28 天脉聚源(北京)传媒科技有限公司 一种收看时长统计方法及系统
CN106649766A (zh) * 2016-12-27 2017-05-10 北京锐安科技有限公司 一种基于kafka的消息处理方法
CN106878397A (zh) * 2017-01-21 2017-06-20 浙江沛宏网络科技有限公司 一种web用户行为反馈方法及系统
CN107911387A (zh) * 2017-12-08 2018-04-13 国网河北省电力有限公司电力科学研究院 用电信息采集系统账号异常登陆和异常操作的监控方法
CN108228379A (zh) * 2018-01-24 2018-06-29 广东远峰汽车电子有限公司 日志统计方法、收集服务器、分布式服务器及汇总服务器
CN109271106A (zh) * 2018-08-31 2019-01-25 华为技术有限公司 消息存储、读取方法及装置、服务器、存储介质
CN111666193B (zh) * 2019-03-08 2024-01-30 阿里巴巴集团控股有限公司 基于实时日志解析的终端功能监控与测试的方法与系统
CN111666193A (zh) * 2019-03-08 2020-09-15 阿里巴巴集团控股有限公司 基于实时日志解析的终端功能监控与测试的方法与系统
CN110245059A (zh) * 2019-05-20 2019-09-17 平安普惠企业管理有限公司 一种数据处理方法、设备及存储介质
CN110493355A (zh) * 2019-09-11 2019-11-22 无锡华云数据技术服务有限公司 一种系统日志的下载方法及装置
CN111049899B (zh) * 2019-12-11 2021-01-05 贝壳找房(北京)科技有限公司 kafka消息存储系统、方法、装置及计算机可读存储介质
CN111049899A (zh) * 2019-12-11 2020-04-21 贝壳技术有限公司 kafka消息存储系统、方法、装置及计算机可读存储介质
CN111625583A (zh) * 2020-05-21 2020-09-04 广西电网有限责任公司 业务数据处理方法、装置、计算机设备和存储介质
CN111625583B (zh) * 2020-05-21 2022-07-29 广西电网有限责任公司 业务数据处理方法、装置、计算机设备和存储介质
CN113179302A (zh) * 2021-04-19 2021-07-27 杭州海康威视系统技术有限公司 日志系统以及日志数据的收集方法和收集装置
CN113179302B (zh) * 2021-04-19 2022-09-16 杭州海康威视系统技术有限公司 日志系统以及日志数据的收集方法和收集装置

Also Published As

Publication number Publication date
CN105490854B (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
CN105490854A (zh) 实时日志收集方法、系统和应用服务器集群
CN106878064B (zh) 数据监控方法和装置
JP6612949B2 (ja) オンラインメディアインプレッションデータを共有するための方法、装置及び記憶媒体
US9332056B2 (en) Methods and apparatus to distinguish between parent and child webpage accesses and/or browser tabs in focus
CA2773567C (en) Methods and apparatus to generate a tag for media
CN107797894B (zh) App用户行为分析方法和装置
CN105930363B (zh) 一种基于html5网页的用户行为分析方法及装置
CN107995266A (zh) 埋点数据处理方法、装置、计算机设备和存储介质
CN102571404B (zh) 网站访问统计方法和网站访问统计系统
CN106897215A (zh) 一种基于WebView网页加载性能及用户行为流数据采集的方法
CN110020339B (zh) 基于无埋点的网页数据采集方法及装置
CN105589782A (zh) 基于浏览器的用户行为采集方法
Gill et al. Characterizing user sessions on youtube
CN103279567A (zh) 一种基于AJAX的Web数据采集方法及系统
CN102314455A (zh) 计算网页点击流量的方法及系统
CN103001796A (zh) 服务端处理网络日志数据的方法及装置
CN102098327A (zh) 在线视频嗅探下载方法及装置
CN104182506A (zh) 日志管理方法
CN112486708B (zh) 页面操作数据的处理方法和处理系统
CN107294919A (zh) 一种水平权限漏洞的检测方法及装置
CN103702053A (zh) 录像存储和检索方法及系统、监控系统
CN104601349A (zh) 网络行为日志时间校正方法和装置
CN103428249B (zh) 一种http请求包的收集及处理方法、系统和服务器
CN106598815A (zh) 一种实时异步日志收集方法及系统
CN105721578A (zh) 一种用户行为数据采集方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200508

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 200241, room 2, floor 02, building 555, Dongchuan Road, Minhang District, Shanghai

Patentee before: Transmission network technology (Shanghai) Co., Ltd