CN101192227B - 一种基于分布式计算网络的日志文件分析方法和系统 - Google Patents

一种基于分布式计算网络的日志文件分析方法和系统 Download PDF

Info

Publication number
CN101192227B
CN101192227B CN200610160832.5A CN200610160832A CN101192227B CN 101192227 B CN101192227 B CN 101192227B CN 200610160832 A CN200610160832 A CN 200610160832A CN 101192227 B CN101192227 B CN 101192227B
Authority
CN
China
Prior art keywords
file
log
node
server
journal file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200610160832.5A
Other languages
English (en)
Other versions
CN101192227A (zh
Inventor
吴伟勋
李江华
张金银
李昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHEJIANG LIANHE TECHNOLOGY Co.,Ltd.
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN200610160832.5A priority Critical patent/CN101192227B/zh
Priority to JP2009538575A priority patent/JP5160556B2/ja
Priority to EP07817031.3A priority patent/EP2088711B1/en
Priority to US12/516,868 priority patent/US8671097B2/en
Priority to PCT/CN2007/070840 priority patent/WO2008064593A1/zh
Publication of CN101192227A publication Critical patent/CN101192227A/zh
Application granted granted Critical
Publication of CN101192227B publication Critical patent/CN101192227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于分布式计算网络的日志文件分析方法和系统。所述方法包括:将用户标识与相应的日志信息存储在日志文件中;将所述日志文件划分为多个目标文件,所述目标文件中含有相同用户标识的日志信息;使用两个以上的节点分别对所述目标文件进行分析并得到分析结果;合并各节点的分析结果。这样,通过用户标识在不同的日志文件中建立关联,并可进一步分析用户访问网站不同内容之间的关系。

Description

一种基于分布式计算网络的日志文件分析方法和系统
技术领域
本发明涉及数据处理领域,特别是涉及一种分布式计算网络的日志文件分析方法和系统。
背景技术
随着互联网上信息服务的发展,许多政府部门、公司、大专院校、科研院所等都已经拥有或正在建设自己的网站。每个网站的后面都运行着一个Web服务器,Web服务器是一个用于管理Web页面的软件,并使这些页面通过本地网络或Internet供客户浏览器使用。现在较常用的Web服务器包括Apache、IIS和Iplanet的Enterprise服务器。对网站的管理,要求不仅仅关注服务器每天的吞吐量,还要了解网站各页面的访问情况,根据各页面的点击频率来改善网页的内容和质量、提高内容的可读性,跟踪包含有商业交易的步骤以及管理Web网站“幕后”的数据等。
尤其对于以电子商务或搜索引擎为业务的网络公司而言,更是如此;需要对web服务器的运行和访问情况进行详细和周全的分析,了解网站运行情况,发现网站存在的不足,促进网站的更好发展,而这些要求都可以通过对web服务器的日志文件的统计和分析来做到。常见的日志分析工具有WebTrends、Wusage、wwwstat、http-analyze、pwebstats、WebStat Explorer、webalizer、AWStats等。对日志文件进行分析、查看的过程,就是从大量数据中挖掘出来未知的、有价值的模式或者规律,为决策服务的复杂过程。
由于网站的内容总是在不断地更新和变化中,因此,网站管理人员需要及时地获知日志文件的分析结果,例如可以在第二天上班时看到前一天的页面访问量(PV, Page View)等统计数据。与此同时,随着互联网的不断普及,上网人数的不断增加,Web网站的访问量从十万,百万级别上升到千万,上亿级别;Web服务器的日志文件的数据量也从几十MB到几十GB,甚至达到TB的数量级。而相应的对日志文件的统计和分析的时间要求却并没有降低。因此,如何及时有效地对不断增加的日志文件进行分析和统计,就成为本领域技术人员所必需面临的问题。
目前较为常见的是采用基于分布式计算网络的日志分析方法。分布式计算网络是由多台计算机构成的计算集群。分布式处理的基本思想是将文件分割成多个小的文件,各个文件之间互不相关。这样每个部分就可以分别在各台机器上执行,最后将分析结果合并就可以了。如图1所示,是分布式计算网络的一种拓扑结构图。其中日志分析服务器110负责从web服务器获取日志文件,将划分好的日志文件分别发送至节点121、122和123进行分析。分析完成后,再由日志分析服务器110从各节点取得分析结果对其汇总合并,并最终得到该web服务器的日志分析结果。当前采用分布式处理方式对日志文件进行分析时,普遍的做法是按照网站结构划分日志文件,例如,如果一个网站的内容由新闻、论坛和博客三部分组成,那么就将新闻日志、论坛日志和博客日志划分出来由节点121、122和123分别处理。当然,用户可根据划分日志的多少决定是否增加新的节点。现实中,用户在访问一个网站时的行为往往是连续的,而上述处理方式,将导致一个即访问了新闻频道,又访问了论坛、博客的用户的日志信息,被分成三个部分,造成无法得到该用户完整的访问路径。例如用户访问了8个页面,前两个页面(ua1,ua2)访问新闻,第3、4个页面(ub3,ub4)访问论坛,第5、6个页面(ua5,ua6)访问新闻,最后两个页面(uc7,uc8)访问博客。这种情况下用户的访问路径就被切分成了三部分,第一部分是用户在新闻频道的访问路径ua1,ua2,ua5,ua6;第二部分是用户在论坛的访问路径ua3,ua4;第三部分是用户在博客的访问路径uc7,uc8。这样以来,原本关联的内容由三个节点分别处理,导致用户的访问过程被割裂,也就无法分析出不同内容之间的关系了。
发明内容
本发明的目的在于提供一种基于分布式计算网络的日志文件分析方法和系统,以解决现有技术中由于日志文件被分割处理,导致无法获取用户完整的访问过程,无法分析出不同内容之间关系的问题。
为解决上述问题,本发明公开了一种基于分布式网络的日志文件分析方法,包括以下步骤:
日志分析服务器从web服务器下载日志文件,所述日志文件含有用户标识及与该用户标识相应的日志信息;
将所述日志文件划分为多个目标文件,每个目标文件中含有相同用户标识的日志信息;
使用两个以上的节点分别对所述多个目标文件进行分析并得到分析结果;
合并各节点的分析结果。
其中,所述web服务器是由至少一个服务器组成的服务器集群,所述日志文件为日志文件集,包括该服务器集群中各个服务器产生的日志文件。
优选的,所述将日志文件划分为多个目标文件的过程包括:
日志分析服务器将所述日志文件发送至相应的各个节点;
节点对收到的日志文件按用户标识分割为标识文件,将具有相同用户标识的日志信息放入同一个标识文件中,并将该标识文件发送至日志分析服务器;
日志分析服务器收集各个节点发送的标识文件,将具有相同用户标识的标识文件合并为一个文件作为目标文件。
优选的,所述节点将日志文件分割为标识文件之前还包括:节点过滤所述日志文件中与日志分析无关的信息。
优选的,所述节点对目标文件进行分析之前还包括:对目标文件中的日志信息按其生成时间排序。
优选的,所述用户标识由web服务器,根据用户的IP和随机数产生,并保存在用户本地机器中。
优选的,所述用户标识存储在用户本地机器的Cookie中。
本发明还公开了一种基于分布式计算网络的日志文件分析系统,包括日志分析服务器和两个以上的节点,其中,
所述日志分析服务器包括:
收集单元,用于从web服务器下载日志文件,所述日志文件含有用户标识及与该用户标识相应的日志信息;
存储单元,用于存储收集单元收集的日志文件;
第一接口单元,用于接收和发送数据;
划分单元,用于将所述存储单元中的日志文件划分为多个目标文件,每个目标文件由具有相同用户标识的日志信息组成;
其中,所述划分单元将不同的日志文件发送至相应的各个节点、收集各个节点发送的标识文件,将具有相同用户标识的标识文件合并为一个文件作为目标文件;
所述节点包括:
第二接口单元,用于接收和发送数据;
分割单元,用于对所述划分单元发送的日志文件按用户标识分割为标识文件,将具有相同用户标识的日志信息放入同一个标识文件中;
处理单元,用于对目标文件进行分析;
所述日志分析服务器还包括:合并单元,用于合并各节点的分析结果。
优选的,所述web服务器是由至少一个服务器组成的服务器集群,所述日志文件为日志文件集,包括该服务器集群中各个服务器产生的日志文件。
优选的,所述节点还包括:
过滤单元,用于在所述分割单元将日志文件分割为标识文件之前,过滤日志文件中与日志分析无关的信息;
优选的,所述节点还包括:
排序单元,用于在所述处理单元对目标文件进行分析之前,对目标文件中的日志信息按其生成时间排序。
与现有技术相比,本发明具有以下优点:
本发明通过在web服务器的日志信息中记录用户标识,这样即使日志文件被分割,或者该日志文件是一个日志文件集,都可以利用用户标识在位于不同的日志信息之间建立关联关系。进一步的,本发明根据用户标识将日志文件划分为目标文件,让目标文件中含有一个用户在访问网站时的所有日志信息,如此以来,解决了现有技术使用分布式计算网络分析日志时存在的无法分析用户不同访问内容之间关系的问题。
附图说明
图1是分布式计算网络的拓扑结构图;
图2是访问web服务器的步骤流程图;
图3是本发明所述的基于分布式计算网络的日志分析方法的步骤流程图;
图4是本发明所述的基于分布式计算网络的日志分析系统的结构框图。
具体实施方式
本发明的应用环境为浏览器/服务器(Browser/Server)结构。为了更好地理解本发明,在介绍具体实施方式之前,首先对使用浏览器访问web服务器的基本原理作一简单说明。
参照图2,图2示出了使用浏览器访问web服务器的步骤流程图。
步骤S21,用户通过浏览器访问web服务器。
步骤S22,web服务器将用户的访问信息写入日志。
步骤S23,web服务器将用户访问的网页数据传给用户。
所述日志文件是由用户访问网站的多条信息记录构成,包括用户的IP,访问时间,访问的浏览器类型。目前大多数web服务器记录的日志内容和格式符合w3c的标准。下面是一个新闻日志文件news.log中的日志信息:213.42.2.21--[13/Oct/2006:00:14:32+0800]ē″Get/china.alibaba.com/news/1.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″
其中,
213.42.2.21,为web服务器的IP地址;
13/Oct/2006:00:14:32+0800,为用户访问的时间;
/china.alibaba.com/news/1.html HTTP/1.1,为用户访问的网页;
Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1),为用户计算机环境信息、浏览器类型。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明所述的基于分布式计算网络的日志文件分析方法包括:将用户标识与相应的日志信息存储在日志文件中;将所述日志文件划分为多个目标文件,所述目标文件中含有相同用户标识的日志信息;使用两个以上的节点分别对所述目标文件进行分析并得到分析结果;合并各节点的分析结果。
图3示出了根据本发明一个优选实施例的日志文件分析方法的步骤流程图。下面参照图3对本发明的一个优选实施例作详细描述。
步骤301:将用户标识和该用户访问web服务器时相应的日志信息存储在日志文件中。
优选的,所述用户标识是由部署在web服务器上的程序,根据用户的IP和随机数产生,并通过网络传送给用户,保存在用户本地机器中。优选的,将所述用户标识存储在用户计算机的Cookie中。Cookie是Web服务器保存在用户硬盘上的一段文本。Cookie允许一个Web站点在用户的电脑上保存信息并且随后再取回它。信息的片断以‘名/值’对(name-value pairs)的形式储存。当用户访问网站时,如果用户计算机的Cookie中已经存在用户标识,则浏览器将存储在该Cookie中的用户标识发送给web服务器;若没有,web服务器会根据规则生成一个用户标识,例如213.42.2.21.1160722884331.10,当web服务器给用户发送网页时将该用户标识作为Cookie添加到网页的HTTP头信息中,伴随网页数据传回到用户的浏览器,浏览器将所述含有用户标识的Cookie存储到用户计算机中,以便再次访问该网站时将用户标识传送给web服务器。
用户访问网站时,web服务器将网页数据传送回浏览器的同时,将用户标识和访问信息存储在日志文件中。例如,将用户标识213.42.2.21.1160722884331.10和相应的访问信息存储在日志文件中的结果如下:
213.42.2.21--[13/Oct/2006:00:14:32+0800]″Get/china.alibaba.com/news/1.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
当然,上述web服务器根据用户的IP和随机数产生用户标识并存储在用户计算机Cookie中的方法只是本发明优选的方法。使用什么内容、何种方式产生、存储用户标识,本发明对此并不作限制,只要能够区分出用户身份即可。例如,可以使用该用户在网站的注册帐户、用户计算机网卡地址等。
步骤302:将web服务器生成的日志文件划分为多个目标文件,所述目标文件中含有相同用户标识的日志信息。
优选的,本发明中web服务器是由多个服务器组成的服务器集群,其中每个服务器各自产生相应的日志文件。例如,若一个网站的内容分为新闻、论坛和博客三个频道,那么其中的每一个频道将分别由一台服务器提供访问服务。当用户通过网站主页进入新闻频道时,由新闻服务器将用户访问的网页数据传送给用户,显示在用户的浏览器中。同时,将用户的访问信息写入该服务器的日志文件中。这样,对于该服务器集群中的三台服务器,将会生成三个日志文件。对于服务器集群来说,其日志文件实际上是一个日志文件集,包括了各个服务器生成的日志文件。
本发明优选的,按照以下方法将日志文件划分为目标文件:当需要分析日志文件时,从服务器集群中的各服务器收集日志文件并将其下载到日志分析服务器。当然,若web服务器是一台服务器,产生一个日志文件,则日志分析服务器需要对该日志文件按照内容将其分割为多个容量较小的日志文件,以符合分布式计算的要求;日志分析服务器将下载到的日志文件发送到与其相应的各个节点;各节点对收到的日志文件进行过滤,去除与日志分析无关的信息,以减小日志文件的容量;节点对所述日志文件按用户标识分割为标识文件,将具有相同用户标识的记录放入同一个标识文件中,然后将标识文件发送至日志分析服务器;日志分析服务器收集各个节点发送的标识文件,将具有相同用户标识的标识文件合并为一个文件作为目标文件。本发明将日志文件发送到各节点进行过滤和分割,在由日志分析服务器合并为目标文件的原因在于,日志文件的容量通常较大,这样做可以尽可能提高日志分析的效率。当然,本领域的技术人员也可以利用其他方式生成日志文件,例如在日志分析服务器完成对日志文件的过滤、分割以及合并操作生成目标文件。
通过上述操作,将具有相同用户标识的日志信息整合为一个目标文件,使得分散存储于不同日志文件中的日志信息之间建立了关联关系。
步骤303:使用两个以上节点分别对所述目标文件进行分析处理得到分析结果。
使用两个以上节点组成的分布式计算网络对日志文件进行处理是针对大容量日志文件的一种有效的分析方法。但是,由于分布式处理需要将日志文件划分为几个部分分别处理,由于现有的处理方式是按照内容划分日志文件,因此同一个用户的日志信息将被分散到不同的机器中,导致无法得出该用户访问内容之间的关系。而本发明用于处理的目标文件,存储了同一用户访问过的所有日志信息,很好地解决了上述问题。
优选的,对目标文件分析之前,各节点按照访问时间对该文件中日志信息进行排序。如此以来,该目标文件准确地反映了用户访问网站不同内容时的先后顺序,据此可进一步分析出不同内容之间的关系。例如,用户点击某产品的广告进入该产品的主页,最后购买该产品。通过分析该用户日志文件中访问路径的先后顺序,就可以知道有多少用户是通过点击广告购买该产品的,得出该广告的投放效果。
步骤304:对分布式计算网络中各节点上的分析结果进行合并,形成所述日志文件的分析结果。
下面结合实施例1用一个例子说明本发明所述的方法。例如,一个网站的web服务器是由100台服务器组成的服务器集群,这样就会产生100个日志文件,若每个日志文件100M,总的日志文件就有10G。使用由5个节点组成的分布式计算网络分析日志文件。首先从web服务器中得到100个日志文件;然后过滤掉与日志分析无关的内容;按照用户标识对100个日志文件重新分组生成5个目标文件,每个目标文件容量为2G,其中具有相同用户标识的日志信息都被分在同一个目标文件中;分布式计算网络的各节点对目标文件按时间排序后进行分析处理;最后,将各个节点的分析结果合并得到全部日志文件的分析结果。采用上述处理方式,即使web服务器日志文件的容量继续增加,只需增加分布式网络的节点数即可。
以上对本发明的基于分布式网络的日志文件分析方法作了介绍,下面结合应用环境以一个具体的实施例对本发明所述的方法作进一步详细说明。
在本例中,web服务器集群包括三台服务器,分别提供新闻、论坛和博客三种服务,并分别产生3个日志文件:news.log、club.log和blog.log。相应的,分布式计算网络由日志分析服务器和节点1、节点2和节点3组成。各日志文件的内容如下:
日志文件news.log:
213.42.2.21--[13/Oct/2006:00:14:32+0800]″Get/china.alibaba.com/news/1.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:33+0800]″Get/china.alibaba.com/news/2.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1234567890123.40
213.42.2.21--[13/Oct/2006:00:14:34+0800]″Get/china.alibaba.com/news/3.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1234567890123.40
213.42.2.21--[13/Oct/2006:00:14:35+0800]″Get/china.alibaba.com/news/4.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:36+0800]″Get/china.alibaba.com/news/5.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:36+0800]″Get/china.alibaba.com/news/5.jpgHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1160722884331.10
日志文件club.log:
213.42.2.21--[13/Oct/2006:00:14:42+0800]″Get/china.alibaba.com/club/1.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:43+0800]″Get/china.alibaba.com/club/2.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1234567890123.40
213.42.2.21--[13/Oct/2006:00:14:44+0800]″Get/china.alibaba.com/club/3.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1234567890123.40
213.42.2.21--[13/Oct2006:00:14:45+0800]″Get/china.alibaba.com/club/4.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:46+0800]″Get/china.alibaba.com/club/5.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
60.123.45.6--[13/Oct/2006:00:14:46+0800]″Get/china.alibaba.com/club/5.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″60.123.45.6.9876543210987.20
日志文件blog.log:
213.42.2.21--[13/Oct/2006:00:14:22+0800]″Get/china.alibaba.com/blog/1.htmlHTTP/1.1″20040348″-″″Mozliia/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:23+0800]″Get/china.alibaba.com/blog/2.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1234567890123.40
213.42.2.21--[13/Oct/2006:00:14:24+0800]″Get/china.alibaba.com/blog/3.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1234567890123.40
213.42.2.21--[13/Oct/2006:00:14:25+0800]″Get/china.alibaba.com/blog/4.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:26+0800]″Get/china.alibaba.com/blog/5.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
下面是日志分析的具体过程:
步骤a:将上述三个日志文件下载到分布式计算网络中的日志分析服务器。
步骤b:日志分析服务器将日志文件new.log传给节点1,将club.log传给节点2,blog.log传给节点3。
各节点收到日志文件后执行以下操作:
步骤c:将日志文件中的不需要分析的日志信息过滤掉,例如根据IP地址、URL类型等,在本例中new.log的最后一条日志因为是访问的是jpg文件,所以被过滤掉。
步骤d:根据用户标识对日志文件切分。
文件news.log将被切分成三个文件news_1.log,news_2.log,news_3.log。相同用户标识的日志信息被保存在同一个文件中。其中,
news_1.log的内容包括:
213.42.2.21--[13/Oct/2006:00:14:32+0800]″Get/china.alibaba.com/news/1.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:35+0800]″Get/china.alibaba.com/news/4.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:36+0800]″Get/china.alibaba.com/news/5.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
news_2.log的内容包括:
213.42.2.21--[13/Oct/2006:00:14:33+0800]″Get/china.alibaba.com/news/2.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1234567890123.40
213.42.2.21--[13/Oct/2006:00:14:34+0800]″Get/china.alibaba.com/news/3.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1234567890123.40
news_3.log内容为空。
用同样的方法将club.log切分为3个文件club_1.log,club_2.log,club_3.log,将相同用户标识的信息放在同一个文件中,其中,
club_1.log的内容包括:
213.42.2.21--[13/Oct/2006:00:14:42+0800]″Get/china.alibaba.com/club/1.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:45+0800]″Get/china.alibaba.com/club/4.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:46+0800]″Get/china.alibaba.com/club/5.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
club_2.log的内容包括:
213.42.2.21--[13/Oct/2006:00:14:43+0800]″Get/china.alibaba.com/club/2.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1234567890123.40
213.42.2.21--[13/Oct/2006:00:14:44+0800]″Get/china.alibaba.com/club/3.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1234567890123.40
club_3.log的内容包括:
60.123.45.6--[13/Oct/2006:00:14:46+0800]″Get/china.alibaba.com/club/5.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″60.123.45.6.9876543210987.20
采用同样的方法将blog.log分成blog_1.log,blog_2.log,blog_3.log三个文件,将相同用户标识的信息放入同一个文件中。各文件具体内容这里不再赘述。
步骤e:各节点将切分后的文件发送至日志分析服务器。
步骤f:日志分析服务器将具有相同用户标识的文件合并为一个文件,该文件即所述的目标文件。
在本例中日志分析服务器共收到9个文件,将其中的new_1.log,club_1.log,blog_1.log合并成filted1.log,new_2.log,club_2.log,blog_2.log合并成filted2.log,new_3.log,club_3.log,blog_3.log合并成filted3.log。
步骤g:日志分析服务器将目标文件filted1.log、filted2.log和filted3.log分别发送至节点1、节点2和节点3。
步骤h:各节点对所收到的目标文件按日志信息的访问时间进行排序。
其中节点1对文件fi lted1.log排序后的结果如下:
213.42.2.21--[13/Oct2006:00:14:22+0800]″Get/china.alibaba.com/blog/1.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:25+0800]″Get/china.alibaba.com/blog/4.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:26+0800]″Get/china.alibaba.com/blog/5.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:32+0800]″Get/china.alibaba.com/news/1.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:35+0800]″Get/china.alibaba.com/news/4.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:36+0800]″Get/china.alibaba.com/news/5.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:42+0800]″Get/china.alibaba.com/club/1.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:45+0800]″Get/china.alibaba.com/club/4.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows  NT 5.1)″213.42.2.21.1160722884331.10
213.42.2.21--[13/Oct/2006:00:14:46+0800]″Get/china.alibaba.com/club/5.htmlHTTP/1.1″20040348″-″″Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1)″213.42.2.21.1160722884331.10
步骤i:各节点对排序后的文件进行分析得到分析结果。
其中,Filter1.log的分析结果是9个PV,1个访问用户,1条访问路径;Filter2.log的分析结果是6个PV,1个访问用户,1条访问路径;Filter3.log的分析结果是1个PV,1个访问用户,1个访问路径。
步骤j:各节点将分析结果发送至日志分析服务器,由日志分析服务器对所有结果进行合并得到web服务器全部日志的分析结果。
该web服务器的全部日志分析结果为16个PV,3个访问用户,分别是213.42.2.21.1160722884331.1、213.42.2.21.1234567890123.4和60.123.45.6.9876543210987.2,和3条访问路径,同时可分析得出用户在访问新闻和论坛之间的先后关系。
以上,结合具体实施例描述了本发明的一种基于分布式计算网络的日志分析方法。参照以上有关本发明的介绍,如图4所示,是本发明所述的一种基于分布式计算网络的日志分析系统,包括日志分析服务器410和相应的节点420,其中,
所述日志分析服务器410包括:
收集单元412,用于收集web服务器的日志文件,所述日志文件含有用户标识及与该用户标识相应的日志信息;
存储单元413,用于存储收集单元412收集的日志文件;
第一接口单元411,用于接收和发送数据;
划分单元414,用于将所述存储单元413中的日志文件划分为多个目标文件,所述目标文件由具有相同用户标识的日志信息组成;
所述节点420包括:
第二接口单元421,用于接收和发送数据;
处理单元425,用于对目标文件进行分析;
所述日志分析服务器410还包括:和并单元416,用于合并各节点的分析结果。
其中,所述日志文件是web服务器的日志文件,所述web服务器是由至少一个服务器组成的服务器集群,所述日志文件为日志文件集,包括该服务器集群中各个服务器产生的日志文件。
优选的,所述节点420还包括:
过滤单元422,用于过滤日志文件中与日志分析无关的信息;
分割单元423,用于对经过滤单元422过滤的日志文件按用户标识分割为标识文件,将具有相同用户标识的日志信息放入同一个标识文件中;
所述划分单元414还包括:
目标文件生成单元415,用于将各个节点发送的具有相同用户标识的标识文件合并为一个文件作为目标文件。
优选的,所述节点420还包括:排序单元424,用于对目标文件中的日志信息按其生成时间排序。
收集单元412从web服务器集群的各服务器中收集日志文件存储在存储单元413,然后通过第一接口单元411将所述日志文件发送至各个节点;由过滤单元422对第二接口单元421收到的日志文件进行过滤,去除与日志分析无关的信息,然后分割单元423对经过滤单元422过滤的日志文件按用户标识分割为标识文件,将具有相同用户标识的日志信息放入同一个标识文件中,并通过第二接口单元421将所述标识文件发送至日志分析服务器;目标文件生成单元415将各个节点发送的具有相同用户标识的标识文件合并为一个文件作为目标文件,然后再通过第一接口单元411将生成的目标文件发送至各个节点;对于每一个收到目标文件的节点,首先由排序单元424对所述目标文件按照文件中日志信息的生成时间排序,然后再由处理单元425对其分析得到分析结果,最后将该分析结果通过第二接口单元421发回日志分析服务器;最后,由合并单元416对各节点发送的日志分析结果进行合并,得到该web服务器日志文件的分析结果。
以上对本发明所提供的一种基于分布式计算网络的日志文件分析方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于分布式计算网络的日志文件分析方法,所述分布式网络包括日志分析服务器和两个以上的节点,其特征在于,所述方法包括以下步骤:
日志分析服务器从web服务器下载日志文件,所述日志文件含有用户标识及与该用户标识相应的日志信息;
将所述日志文件划分为多个目标文件,每个目标文件中含有相同用户标识的日志信息;
使用两个以上的节点分别对所述多个目标文件进行分析并得到分析结果;
合并各节点的分析结果;
其中,所述将日志文件划分为多个目标文件的过程包括:
日志分析服务器将不同的日志文件发送至相应的各个节点;
节点对收到的日志文件按用户标识分割为标识文件,将具有相同用户标识的日志信息放入同一个标识文件中,并将所述标识文件发送至日志分析服务器;
日志分析服务器收集各个节点发送的标识文件,将具有相同用户标识的标识文件合并为一个文件作为目标文件。
2.根据权利要求1所述的日志文件分析方法,其特征在于,所述web服务器是由至少一个服务器组成的服务器集群,所述日志文件为日志文件集,包括该服务器集群中各个服务器产生的日志文件。
3.根据权利要求1所述的日志文件分析方法,其特征在于,所述节点将日志文件分割为标识文件之前还包括:节点过滤所述日志文件中与日志分析无关的信息。
4.根据权利要求3所述的日志文件分析方法,其特征在于,所述节点对目标文件进行分析之前还包括:对目标文件中的日志信息按其生成时间排序。
5.根据权利要求1所述的日志文件分析方法,其特征在于,所述用户标识由web服务器,根据用户的IP和随机数产生,并保存在用户本地机器中。
6.根据权利要求5所述的日志文件分析方法,其特征在于,所述用户标识存储在用户本地机器的Cookie中。
7.一种基于分布式计算网络的日志文件分析系统,其特征在于,包括日志分析服务器和两个以上的节点,其中,
所述日志分析服务器包括:
收集单元,用于从web服务器下载日志文件,所述日志文件含有用户标识及与该用户标识相应的日志信息;
存储单元,用于存储收集单元收集的日志文件;
第一接口单元,用于接收和发送数据;
划分单元,用于将所述存储单元中的日志文件划分为多个目标文件,每个目标文件由具有相同用户标识的日志信息组成;
其中,所述划分单元将不同的日志文件发送至相应的各个节点、收集各个节点发送的标识文件,将具有相同用户标识的标识文件合并为一个文件作为目标文件;
所述节点包括:
第二接口单元,用于接收和发送数据;
分割单元,用于对所述划分单元发送的日志文件按用户标识分割为标识文件,将具有相同用户标识的日志信息放入同一个标识文件中;
处理单元,用于对目标文件进行分析;
所述日志分析服务器还包括:合并单元,用于合并各节点的分析结果。
8.根据权利要求7所述的日志文件分析系统,其特征在于,所述web服务器是由至少一个服务器组成的服务器集群,所述日志文件为日志文件集,包括该服务器集群中各个服务器产生的日志文件。
9.根据权利要求8所述的日志文件分析系统,其特征在于,所述节点还包括:
过滤单元,用于在所述分割单元将日志文件分割为标识文件之前,过滤日志文件中与日志分析无关的信息。
10.根据权利要求9所述的日志文件分析系统,其特征在于,所述节点还包括:
排序单元,用于在所述处理单元对目标文件进行分析之前,对目标文件中的日志信息按其生成时间排序。
CN200610160832.5A 2006-11-30 2006-11-30 一种基于分布式计算网络的日志文件分析方法和系统 Active CN101192227B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN200610160832.5A CN101192227B (zh) 2006-11-30 2006-11-30 一种基于分布式计算网络的日志文件分析方法和系统
JP2009538575A JP5160556B2 (ja) 2006-11-30 2007-09-29 分散型コンピュータネットワークに基づくログファイル分析方法およびシステム
EP07817031.3A EP2088711B1 (en) 2006-11-30 2007-09-29 A log analyzing method and system based on distributed compute network
US12/516,868 US8671097B2 (en) 2006-11-30 2007-09-29 Method and system for log file analysis based on distributed computing network
PCT/CN2007/070840 WO2008064593A1 (fr) 2006-11-30 2007-09-29 Procédé et système d'analyse de journal basés sur un réseau de calcul distribué

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610160832.5A CN101192227B (zh) 2006-11-30 2006-11-30 一种基于分布式计算网络的日志文件分析方法和系统

Publications (2)

Publication Number Publication Date
CN101192227A CN101192227A (zh) 2008-06-04
CN101192227B true CN101192227B (zh) 2011-05-25

Family

ID=39467443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610160832.5A Active CN101192227B (zh) 2006-11-30 2006-11-30 一种基于分布式计算网络的日志文件分析方法和系统

Country Status (5)

Country Link
US (1) US8671097B2 (zh)
EP (1) EP2088711B1 (zh)
JP (1) JP5160556B2 (zh)
CN (1) CN101192227B (zh)
WO (1) WO2008064593A1 (zh)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880478B2 (en) * 2006-12-28 2014-11-04 International Business Machines Corporation Scan-free archiving
US8495030B2 (en) * 2011-01-06 2013-07-23 International Business Machines Corporation Records declaration filesystem monitoring
CN101662460B (zh) 2008-08-25 2015-07-15 阿里巴巴集团控股有限公司 一种跨域通讯的方法、系统和装置
US20100306389A1 (en) * 2009-05-27 2010-12-02 Ruicao Mu Rule based multimedia communication system on web pages
US20100306385A1 (en) * 2009-05-27 2010-12-02 Ruicao Mu Rule based multimedia communication system on web pages
JP5483965B2 (ja) * 2009-09-14 2014-05-07 株式会社日立製作所 ウェブアプリケーションの操作記録・再生方法およびシステム
US10210162B1 (en) * 2010-03-29 2019-02-19 Carbonite, Inc. Log file management
US10318477B2 (en) * 2010-05-26 2019-06-11 Red Hat, Inc. Managing and archiving system and application log files
CN102270320A (zh) * 2010-06-03 2011-12-07 中兴通讯股份有限公司 业务结算方法和系统
US8533193B2 (en) 2010-11-17 2013-09-10 Hewlett-Packard Development Company, L.P. Managing log entries
CN102307111A (zh) * 2011-09-02 2012-01-04 深圳中兴网信科技有限公司 一种日志分布式采集分析方法及系统
CN102325143B (zh) * 2011-09-19 2014-02-12 北京理工大学 一种基于云平台的信息收集存储和加密检索系统
EP2774064A4 (en) * 2011-11-04 2015-04-29 Hewlett Packard Development Co TREATMENT OF DISTRIBUTED EVENTS
CN103139249B (zh) * 2011-11-29 2016-01-06 腾讯科技(深圳)有限公司 访问请求处理方法、系统和装置
CN102624562A (zh) * 2012-03-13 2012-08-01 网经科技(苏州)有限公司 网络管理系统中分布式syslog日志的安全管理方法
CN102724290B (zh) * 2012-05-23 2015-01-28 华为技术有限公司 一种获取目标客户群的方法、设备及系统
US8812608B2 (en) * 2012-06-26 2014-08-19 Wetpaint.Com, Inc. Portfolio optimization for media merchandizing
US9183200B1 (en) * 2012-08-02 2015-11-10 Symantec Corporation Scale up deduplication engine via efficient partitioning
CN103716174A (zh) * 2012-10-09 2014-04-09 鸿富锦精密工业(深圳)有限公司 测试日志撷取系统及方法
CN102902813B (zh) * 2012-10-22 2016-08-24 北京奇虎科技有限公司 日志收集系统
CN103929321A (zh) * 2013-01-15 2014-07-16 腾讯科技(深圳)有限公司 一种日志处理方法和装置
CN103227730A (zh) * 2013-04-19 2013-07-31 蓝盾信息安全技术股份有限公司 一种大日志分析的方法及系统
CN103246516B (zh) * 2013-05-16 2017-02-08 中国科学院计算机网络信息中心 一种基于互联网的遥感数据分析工具的封装服务方法
CN104426713B (zh) * 2013-08-28 2018-04-17 腾讯科技(北京)有限公司 网络站点访问效果数据的监测方法和装置
WO2015045262A1 (ja) * 2013-09-24 2015-04-02 日本電気株式会社 ログ分析システム、障害原因分析システム、ログ分析方法、および、プログラムを記憶する記録媒体
CN103473169B (zh) * 2013-09-24 2016-04-06 北京京东尚科信息技术有限公司 一种日志文件收集方法及装置
CN103581198A (zh) * 2013-11-13 2014-02-12 浙江中烟工业有限责任公司 基于Apriori算法的安全日志分析方法
CN103595571B (zh) * 2013-11-20 2018-02-02 北京国双科技有限公司 网站访问日志的预处理方法、装置及系统
US20150149609A1 (en) * 2013-11-22 2015-05-28 Microsoft Corporation Performance monitoring to provide real or near real time remediation feedback
CN103729479A (zh) * 2014-01-26 2014-04-16 北京北纬通信科技股份有限公司 基于分布式文件存储的网站页面内容统计的方法和系统
CN103841209A (zh) * 2014-03-19 2014-06-04 中国联合网络通信集团有限公司 数据发送处理方法及装置
JP5640166B1 (ja) * 2014-03-31 2014-12-10 株式会社ラック ログ分析システム
CN103942707B8 (zh) * 2014-04-08 2018-06-29 璧合科技股份有限公司 基于实时竞价的广告效果优化系统
CN105404579B (zh) * 2014-09-11 2018-06-29 阿里巴巴集团控股有限公司 平台化日志分析的计算方法及装置
US9699040B2 (en) * 2014-09-30 2017-07-04 Vivint, Inc. Systems and methods for monitoring globally distributed remote storage devices
CN104516989B (zh) * 2015-01-26 2018-07-03 北京京东尚科信息技术有限公司 增量数据推送系统和方法
US9917758B2 (en) 2015-03-25 2018-03-13 International Business Machines Corporation Optimizing log analysis in SaaS environments
CN104850666A (zh) * 2015-06-15 2015-08-19 上海斐讯数据通信技术有限公司 一种日志文件自动分析方法
CN104951529B (zh) * 2015-06-16 2016-08-17 焦点科技股份有限公司 一种针对网站日志的交互式分析方法
US10635682B2 (en) 2015-12-15 2020-04-28 Microsoft Technology Licensing, Llc Log summarization and diff
CN105574205B (zh) * 2016-01-18 2019-03-19 国家电网公司 分布式计算环境的日志动态分析系统
CN106055703B (zh) * 2016-06-22 2020-01-14 北京科摩仕捷科技有限公司 一种日志实时分析方法及系统
CN108234166A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 一种数据处理方法以及管理设备
KR101914347B1 (ko) * 2016-12-23 2018-11-01 부산대학교 산학협력단 대용량 이벤트 로그 재생 방법 및 대용량 이벤트 로그 재생 시스템
CN106844495A (zh) * 2016-12-26 2017-06-13 北京五八信息技术有限公司 一种网站操作日志的获取方法及装置
CN108255879B (zh) * 2016-12-29 2021-10-08 北京国双科技有限公司 网页浏览流量作弊的检测方法及装置
CN108268471A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 日志文件的读取方法及装置
CN107704478B (zh) * 2017-01-16 2019-03-15 贵州白山云科技股份有限公司 一种写入日志的方法和系统
US10698926B2 (en) 2017-04-20 2020-06-30 Microsoft Technology Licensing, Llc Clustering and labeling streamed data
CN107291928B (zh) * 2017-06-29 2020-03-10 国信优易数据有限公司 一种日志存储系统和方法
US10769110B2 (en) * 2018-04-02 2020-09-08 Adobe Inc. Facilitating queries for interaction data with visitor-indexed data objects
US10740085B2 (en) * 2018-11-30 2020-08-11 Target Brands, Inc. Webserver interface for deployment management tool
CN109885543A (zh) * 2018-12-24 2019-06-14 航天信息股份有限公司 基于大数据集群的日志处理方法及装置
CN109951323B (zh) * 2019-02-27 2022-11-08 网宿科技股份有限公司 一种日志分析方法和系统
CN110413496B (zh) * 2019-07-29 2022-08-19 福建南威软件有限公司 一种实现电子证照运行数据组件化收集的方法
CN113138908A (zh) * 2020-01-19 2021-07-20 上海臻客信息技术服务有限公司 一种针对服务器集群的日志采集方法
CN111680016A (zh) * 2020-05-28 2020-09-18 中国人民银行清算总中心 分布式服务器集群日志数据处理方法、装置及系统
CN111786828B (zh) * 2020-06-29 2023-07-11 百度在线网络技术(北京)有限公司 在网络设备中执行的日志处理方法和网络设备
CN112131198B (zh) * 2020-09-23 2024-06-07 北京奇艺世纪科技有限公司 一种日志分析方法、装置及电子设备
CN112363893B (zh) * 2021-01-11 2021-04-27 杭州涂鸦信息技术有限公司 时序指标异常检测方法、设备及装置
US11848837B2 (en) 2021-10-19 2023-12-19 Mellanox Technologies, Ltd. Network telemetry based on application-level information

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604035A (zh) * 2003-09-30 2005-04-06 联想(北京)有限公司 一种日志分析系统及基于该系统的分析方法
CN1642097A (zh) * 2004-01-02 2005-07-20 联想(北京)有限公司 日志统计方法和系统
CN1791022A (zh) * 2005-12-26 2006-06-21 阿里巴巴公司 一种日志分析方法和系统

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3395208B2 (ja) * 1991-07-10 2003-04-07 株式会社日立製作所 分散データベースのソート方法およびアクセス方法
US5537588A (en) 1994-05-11 1996-07-16 International Business Machines Corporation Partitioned log-structured file system and methods for operating the same
JP3472026B2 (ja) 1996-03-26 2003-12-02 富士通株式会社 ログ情報採取解析装置
JP3584630B2 (ja) * 1996-09-20 2004-11-04 株式会社日立製作所 データベース処理システムにおける分類集計処理方法
US6529952B1 (en) * 1999-04-02 2003-03-04 Nielsen Media Research, Inc. Method and system for the collection of cookies and other information from a panel
US6789115B1 (en) * 1999-07-09 2004-09-07 Merrill Lynch & Company System for collecting, analyzing, and reporting high volume multi-web server usage
WO2001025918A2 (en) 1999-10-01 2001-04-12 Accenture Llp Frameworks for methods and systems of providing netcentric computing
US6598179B1 (en) 2000-03-31 2003-07-22 International Business Machines Corporation Table-based error log analysis
GB2367464A (en) * 2000-07-19 2002-04-03 Hewlett Packard Co Web traffic analysis
US7567916B1 (en) * 2000-09-12 2009-07-28 Capital One Financial Corporation System and method for performing Web based in-view monitoring
DE10139787A1 (de) * 2000-09-25 2002-04-18 Mythink Technology Co Ltd Verfahren und System zur Echtzeitanalyse und Echtzeitverarbeitung von Daten über das Internet
CA2327211A1 (en) * 2000-12-01 2002-06-01 Nortel Networks Limited Management of log archival and reporting for data network security systems
JP4655382B2 (ja) * 2001-02-23 2011-03-23 富士ゼロックス株式会社 情報閲覧支援装置及び情報閲覧支援プログラム
US6741990B2 (en) * 2001-05-23 2004-05-25 Intel Corporation System and method for efficient and adaptive web accesses filtering
US6944647B2 (en) 2001-06-29 2005-09-13 International Business Machines Corporation Methods and apparatus for bookmarking and annotating data in a log file
US7165105B2 (en) * 2001-07-16 2007-01-16 Netgenesis Corporation System and method for logical view analysis and visualization of user behavior in a distributed computer network
US20030160609A9 (en) * 2001-08-16 2003-08-28 Avenue A, Inc. Method and facility for storing and indexing web browsing data
EP1298536A1 (en) 2001-10-01 2003-04-02 Partec AG Distributed file system and method of operating a distributed file system
US7290007B2 (en) 2002-05-10 2007-10-30 International Business Machines Corporation Method and apparatus for recording and managing data object relationship data
US7085682B1 (en) * 2002-09-18 2006-08-01 Doubleclick Inc. System and method for analyzing website activity
JP2004318552A (ja) 2003-04-17 2004-11-11 Kddi Corp Idsログ分析支援装置、idsログ分析支援方法及びidsログ分析支援プログラム
US7174345B2 (en) * 2003-05-30 2007-02-06 Oracle International Corporation Methods and systems for auto-partitioning of schema objects
JP4437650B2 (ja) 2003-08-25 2010-03-24 株式会社日立製作所 ストレージシステム
CN100383784C (zh) * 2004-01-02 2008-04-23 联想(北京)有限公司 联机分析处理系统及方法
CN100375047C (zh) * 2004-03-17 2008-03-12 联想(北京)有限公司 一种计算机日志的管理方法
US7412442B1 (en) * 2004-10-15 2008-08-12 Amazon Technologies, Inc. Augmenting search query results with behaviorally related items
JP2006260420A (ja) * 2005-03-18 2006-09-28 Fujitsu Ltd ウェブサイト分析システム
JP4766240B2 (ja) 2005-11-08 2011-09-07 日本電気株式会社 ファイル管理方法、装置、およびプログラム
EP2011035A4 (en) 2006-04-27 2011-08-24 Intel Corp SYSTEM-BASED PROCESSING FOR PARTITIONING AND MINING ON CONTENT BASE
US7886047B1 (en) * 2008-07-08 2011-02-08 Sprint Communications Company L.P. Audience measurement of wireless web subscribers
US7974970B2 (en) * 2008-10-09 2011-07-05 Yahoo! Inc. Detection of undesirable web pages

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604035A (zh) * 2003-09-30 2005-04-06 联想(北京)有限公司 一种日志分析系统及基于该系统的分析方法
CN1642097A (zh) * 2004-01-02 2005-07-20 联想(北京)有限公司 日志统计方法和系统
CN1791022A (zh) * 2005-12-26 2006-06-21 阿里巴巴公司 一种日志分析方法和系统

Also Published As

Publication number Publication date
EP2088711A1 (en) 2009-08-12
EP2088711B1 (en) 2018-12-12
US8671097B2 (en) 2014-03-11
WO2008064593A1 (fr) 2008-06-05
JP5160556B2 (ja) 2013-03-13
JP2010512563A (ja) 2010-04-22
EP2088711A4 (en) 2014-05-07
US20100088354A1 (en) 2010-04-08
CN101192227A (zh) 2008-06-04

Similar Documents

Publication Publication Date Title
CN101192227B (zh) 一种基于分布式计算网络的日志文件分析方法和系统
CN103823883B (zh) 一种网站用户访问路径的分析方法及系统
CN101079768B (zh) 一种统计网页链接点击数据的方法
Petricek et al. The web structure of e-government-developing a methodology for quantitative evaluation
Losarwar et al. Data preprocessing in web usage mining
Tyagi et al. An algorithmic approach to data preprocessing in web usage mining
CN100394727C (zh) 一种日志分析方法和系统
CN102663064B (zh) 一种收藏夹数据的处理方法及装置
Baumgarten et al. User-driven navigation pattern discovery from internet data
CN101399716B (zh) 监控办公用计算机使用状态的分布式审计系统和方法
Sisodia et al. Web usage pattern analysis through web logs: A review
US20030187677A1 (en) Processing user interaction data in a collaborative commerce environment
CN101409690A (zh) 一种互联网用户行为的获取方法和系统
WO2014180130A1 (en) Method and system for recommending contents
CN105069087A (zh) 基于Web日志数据挖掘的网站优化方法
CN1859505B (zh) 话单查询系统及查询方法
CN112181931A (zh) 一种大数据系统链路追踪方法及电子设备
CN104182482A (zh) 一种新闻列表页判断方法及筛选新闻列表页的方法
Lakshmi et al. An overview of preprocessing on web log data for web usage analysis
CN102663049A (zh) 一种更新搜索引擎网址库方法及装置
Raju et al. Knowledge discovery from web usage data: Complete preprocessing methodology
Suguna et al. User interest level based preprocessing algorithms using web usage mining
WO2015062652A1 (en) Technique for data traffic analysis
Suneetha et al. Data preprocessing and easy access retrieval of data through data ware house
CN105491136A (zh) 消息发送方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1117247

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1117247

Country of ref document: HK

TR01 Transfer of patent right

Effective date of registration: 20201218

Address after: Room 5034, building 3, 820 wenerxi Road, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: ZHEJIANG LIANHE TECHNOLOGY Co.,Ltd.

Address before: Cayman Islands Grand Cayman capital building, a four storey No. 847 mailbox

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right