CN107908748A - 基于大数据的网站用户行为数据采集方法、系统及应用 - Google Patents

基于大数据的网站用户行为数据采集方法、系统及应用 Download PDF

Info

Publication number
CN107908748A
CN107908748A CN201711147181.0A CN201711147181A CN107908748A CN 107908748 A CN107908748 A CN 107908748A CN 201711147181 A CN201711147181 A CN 201711147181A CN 107908748 A CN107908748 A CN 107908748A
Authority
CN
China
Prior art keywords
data
user
user behavior
website
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711147181.0A
Other languages
English (en)
Inventor
甘傲然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Sense Information Technology Co Ltd
Original Assignee
Nanjing Sense Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Sense Information Technology Co Ltd filed Critical Nanjing Sense Information Technology Co Ltd
Priority to CN201711147181.0A priority Critical patent/CN107908748A/zh
Publication of CN107908748A publication Critical patent/CN107908748A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/1827Management specifically adapted to NAS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种基于大数据的网站用户行为数据采集方法、系统及应用,包括网站插码的步骤,收集用户行为数据的步骤,将用户行为数据包转化成用户行为日志文件的步骤,将用户行为日志文件发送至数据收集云存储的步骤,将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,大数据存储的步骤,采用分布式集群部署,用户行为数据采集与网站应用本身分离,有效降低了用户行为数据采集对网站应用性能的影响。脱离了数据库存储网站用户行为采集数据的方式,分离了用户行为数据对数据库服务器的依赖关系,有效解决海量级数据的查询、分析和统计的问题。

Description

基于大数据的网站用户行为数据采集方法、系统及应用
技术领域
本发明涉及一种数据采集方法及系统,具体的说是一种基于大数据的网站用户行为数据采集方法、系统及应用。
背景技术
目前在大型网站中,需要对登录和非登录用户的行为数据进行采集,网站运营者通过对采集来的数据进行数据分析,帮助改进网站的栏目结构,提升用户的体验,以及进行商业化的用户行为分析,信息推送,广告投放等。
传统的网站用户行为采集方案,基本都是采用在网站应用中部署采集代码和采集处理程序,通过网站应用本身进行用户行为数据的采集和收集,将用户行为数据直接记录入网站数据库中或应用本身的日志文件之中,这样的方案,会带来三个问题:
(1)网站应用需要承担除了处理网站业务以外的其它工作,随着用户访问量的增加,网站应用的性能会出现显著降低,同时网站应用的故障率也逐步提升;
(2)网站应用的数据库服务需要承受高频次的用户行为数据写入操作,数据库的数据存储量日益增加,数据库的性能逐步降低。伴随着行为数据的每日递增,数据库服务器的运行风险也呈现为递增趋势。
(3)当用户行为数据的数据量变为海量级以后,传统的数据库查询已经无法应对海量级数据的查询、分析和统计。
此外,对于大型或特大型的门户网站来说,大型、特大型门户网站的应用系统基本都是采用分布式集群方式部署在很多的服务器上的,网站系统在部署上提现为应用的多节点化、分散化,这为用户行为数据的采集带了很大的困扰,大规模的用户行为数据、分散的数据文件存储,已成为制约用户行为大数据分析的主要矛盾。
本发明提出一种基于大数据的网站用户行为数据采集方法,包括以下步骤:
(1)网站插码的步骤,由网站开发人员在网站页面上进行插码,插入用户行为数据采集脚本文件和脚本代码;
(2)收集用户行为数据的步骤,当用户访问网站页面时,用户行为数据采集脚本文件和脚本代码收集用户行为数据,并将数据重组成指定规格的用户行为数据包,通过HTTP协议向用户行为采集服务器发送;
(3)将用户行为数据包转化成用户行为日志文件的步骤,用户行为采集服务器接收网页端发出的用户行为数据包,并利用OpenResty组件将数据包转化成用户行为日志文件;
(4)将用户行为日志文件发送至数据收集云存储的步骤,在用户行为采集服务器上部署Linux Shell脚本,定时将用户行为日志文件发送至统一的数据收集云存储上;
(5)将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储(NAS)上不断增加的用户行为日志文件,并实时的将日志文件中的数据传输给大数据存储;
(6)大数据存储的步骤,使用HDFS作为大数据存储,将所有的用户行为数据存储于HDFS之中。
进一步优选地,所述OpenResty组件为Lua和Nginx粘合的ngx_lua模块(Nginx+Lua);所述数据收集云存储为NAS云存储;所述监控数据工具为Flume。
进一步优选地,所述将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储(NAS)上新增加的用户行为日志文件,采用增量传递的方式实时的将日志文件中的数据传输给大数据存储。
进一步的,本发明还提出一种基于大数据的网站用户行为数据采集系统,包括网站插码、用户行为数据采集服务器、文件数据传输部件、数据收集云存储、文件数据收集部件和HDFS大数据存储。
所述网站插码包括用户行为数据采集脚本文件和脚本代码;
所述用户行为数据采集服务器包括采集用户行为数据采集脚本文件和脚本代码收集的用户行为的采集部件,将用户行为数据重组成指定规格的用户行为数据包的数据转换部件,以及通过HTTP协议向用户行为采集服务器发送用户行为数据包的发送部件;
所述文件数据传输部件包括将用户行为数据包转化成用户行为日志文件的数据转换部件,以及将用户行为日志文件发送至数据收集云存储的传输部件;
所述数据收集云存储包括数据接收部件,以及数据存储部,所述数据接收部件接收文件数据传输部件发来的用户行为日志文件,所述数据存储部收集数据接收部件收到的用户行为日志文件;
所述文件数据收集部件包括监控数据收集云存储上不断增加的用户行为日志文件的数据监控部件,以及实时的将日志文件中的数据传输给大数据存储数据传输部件;
所述HDFS大数据存储包括数据存储器,支撑存储器的存储系统以及用户行为数据数据库。
进一步优选地,所述文件数据收集部件包括监控数据收集云存储上新增加的用户行为日志文件的数据监控部件,以及实时的将日志文件中新增加的数据传输给大数据存储数据传输部件;
进一步的,本发明还提出一种应用本发明基于大数据的网站用户行为数据采集方法的应用,包括网站、论坛、社区、APP、电子商务平台、网上商城、或微信平台。
以及一种应用本发明基于大数据的网站用户行为数据采集系统的应用,包括网站、论坛、社区、APP、电子商务平台、网上商城、或微信平台。
有益效果:本发明基于大数据的网站用户行为数据采集方法、系统,采用分布式集群部署,用户行为数据采集与网站应用本身分离,有效降低了用户行为数据采集对网站应用性能的影响。脱离了数据库存储网站用户行为采集数据的方式,分离了用户行为数据对数据库服务器的依赖关系,有效解决海量级数据的查询、分析和统计的问题。
附图说明
图1为基于大数据的网站用户行为数据采集方法步骤图;
图2为基于大数据的网站用户行为数据采集系统结构示意图;
图3为基于大数据的网站用户行为数据采集系统工作过程示意图。
具体实施方式
实施例1:如图1所示,一种基于大数据的网站用户行为数据采集方法,包括以下步骤:
(1)网站插码的步骤,由网站开发人员在网站页面上进行插码,插入用户行为数据采集脚本文件和脚本代码;
(2)收集用户行为数据的步骤,当用户访问网站页面时,用户行为数据采集脚本文件和脚本代码收集用户行为数据,并将数据重组成指定规格的用户行为数据包,通过HTTP协议向用户行为采集服务器发送;
(3)将用户行为数据包转化成用户行为日志文件的步骤,用户行为采集服务器接收网页端发出的用户行为数据包,并利用OpenResty组件将数据包转化成用户行为日志文件;
(4)将用户行为日志文件发送至数据收集云存储的步骤,在用户行为采集服务器上部署Linux Shell脚本,定时将用户行为日志文件发送至统一的数据收集云存储上;
(5)将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储(NAS)上不断增加的用户行为日志文件,并实时的将日志文件中的数据传输给大数据存储;
(6)大数据存储的步骤,使用HDFS作为大数据存储,将所有的用户行为数据存储于HDFS之中。
进一步优选地,所述OpenResty组件为Lua和Nginx粘合的ngx_lua模块(Nginx+Lua);所述数据收集云存储为NAS云存储;所述监控数据工具为Flume。
如图2所示,进一步的,本发明还提出一种基于大数据的网站用户行为数据采集系统,包括网站插码、用户行为数据采集服务器、文件数据传输部件、数据收集云存储、文件数据收集部件和HDFS大数据存储。
所述网站插码包括用户行为数据采集脚本文件和脚本代码;
所述用户行为数据采集服务器包括采集用户行为数据采集脚本文件和脚本代码收集的用户行为的采集部件,将用户行为数据重组成指定规格的用户行为数据包的数据转换部件,以及通过HTTP协议向用户行为采集服务器发送用户行为数据包的发送部件;
所述文件数据传输部件包括将用户行为数据包转化成用户行为日志文件的数据转换部件,以及将用户行为日志文件发送至数据收集云存储的传输部件;
所述数据收集云存储包括数据接收部件,以及数据存储部,所述数据接收部件接收文件数据传输部件发来的用户行为日志文件,所述数据存储部收集数据接收部件收到的用户行为日志文件;
所述文件数据收集部件包括监控数据收集云存储上不断增加的用户行为日志文件的数据监控部件,以及实时的将日志文件中的数据传输给大数据存储数据传输部件;
所述HDFS大数据存储包括数据存储器,支撑存储器的存储系统以及用户行为数据数据库。
进一步的,本发明还提出一种应用本发明基于大数据的网站用户行为数据采集方法的应用,包括网站、论坛、社区、APP、电子商务平台、网上商城、或微信平台。
以及一种应用本发明基于大数据的网站用户行为数据采集系统的应用,包括网站、论坛、社区、APP、电子商务平台、网上商城、或微信平台。
实施例2:网站用户行为数据采集方案由六大功能部件组成:网站插码、用户行为数据采集服务器、文件数据传输部件、数据收集云存储、文件数据收集部件和HDFS大数据存储。
网站插码,是一个javascript脚本文件和一段放置于网页上的javascript脚本代码,用于收集用户的行为数据;
用户行为数据采集服务器,是一个专用的采集网站插码脚本发送过来的用户行为数据的服务器,将用户行为数据落地成日志文件;
文件数据传输部件,是用于将用户行为数据采集服务器生成的日志文件传输至统一的数据存储空间的工具;
数据收集云存储,是一个NAS存储空间,专门用于汇总所有的用户行为数据日志文件;
文件数据收集部件,是一个从NAS存储空间中,监控用户行为数据日志文件,并将新增的日志文件收集入大数据存储的工具;
HDFS大数据存储,是存储所有用户行为日志数据的存储器。
应用基于大数据的网站用户行为数据采集方法的方案其工作方式为:在网站页面上进行插码,当用户访问网页时,插码脚本向后端发送用户行为数据请求,用户行为采集数据服务器接收请求,并落地成日志文件,文件是数据传输部件将日志文件全部汇总至统一的NAS存储,然后由文件数据收集部件实时将日志文件数据传输入大数据存储。
其工作过程为: Nginx+Lua生成用户行为日志,由Linux Shell发送给数据收集云存储(NAS/FTP),由Flume将收集到的日志文件存储到HDFS大数据存储上。
具体的:
由网站开发人员在网站页面上进行插码,插入用户行为数据采集脚本文件和脚本代码;
当用户访问网站页面时,用户行为数据采集脚本和脚本代码收集用户行为数据,并将数据重组成指定规格数据包向通过HTTP协议发送;
用户行为采集服务器接收网页端发出的用户行为数据包,并利用Nginx+Lua程序将数据包转化成用户行为日志文件;
在用户行为采集服务器上部署Linux Shell脚本,定时将用户行为日志文件发送至统一的数据收集云存储(NAS)上;
利用Flume工具程序监控数据收集云存储上不断增加的用户行为日志文件,并实时的将日志文件中的数据传输给大数据存储;
使用HDFS作为大数据存储,降所有的用户行为数据存储于HDFS之中。
用户行为数据是由插入在网页中的Javascript脚本收集和发送出来的,而javascript脚本是运行在客户端浏览器上的,因此用户行为数据的收集不依赖于网站应用程序的服务端,实现了与网站应用的分离,对网站的性能不产生影响;
用户行为数据的收集是通过用户行为采集服务器实现的,由于采用了Nginx+Lua程序实现,既轻量化又高性能,而日志数据存储于HDFS中,整体脱离了对数据库服务的依赖;
HDFS是一个支持大数据存储的数据存储服务,支持海量级数据的存储、查询、分析和统计,当数据量暴增时,HDFS能够提供比专业关系型数据库更高性能的数据查询服务。

Claims (8)

1.一种基于大数据的网站用户行为数据采集方法,其特征在于包括以下步骤:
(1)网站插码的步骤,由网站开发人员在网站页面上进行插码,插入用户行为数据采集脚本文件和脚本代码;
(2)收集用户行为数据的步骤,当用户访问网站页面时,用户行为数据采集脚本文件和脚本代码收集用户行为数据,并将数据重组成指定规格的用户行为数据包,通过HTTP协议向用户行为采集服务器发送;
(3)将用户行为数据包转化成用户行为日志文件的步骤,用户行为采集服务器接收网页端发出的用户行为数据包,并利用OpenResty组件将数据包转化成用户行为日志文件;
(4)将用户行为日志文件发送至数据收集云存储的步骤,在用户行为采集服务器上部署Linux Shell脚本,定时将用户行为日志文件发送至统一的数据收集云存储上;
(5)将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储(NAS)上不断增加的用户行为日志文件,并实时的将日志文件中的数据传输给大数据存储;
(6)大数据存储的步骤,使用HDFS作为大数据存储,将所有的用户行为数据存储于HDFS之中。
2.根据权利要求1所述基于大数据的网站用户行为数据采集方法,其特征在于:所述OpenResty组件为Lua和Nginx粘合的ngx_lua模块;所述数据收集云存储为NAS云存储;所述监控数据工具为Flume。
3.根据权利要求1所述基于大数据的网站用户行为数据采集方法,其特征在于:所述将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储(NAS)上新增加的用户行为日志文件,采用增量传递的方式实时的将日志文件中的数据传输给大数据存储。
4.采用权利要求1所述基于大数据的网站用户行为数据采集方法的系统,其特征在于:包括网站插码、用户行为数据采集服务器、文件数据传输部件、数据收集云存储、文件数据收集部件和HDFS大数据存储。
5.根据权利要求4所述的基于大数据的网站用户行为数据采集方法的系统,其特征在于:
所述网站插码包括用户行为数据采集脚本文件和脚本代码;
所述用户行为数据采集服务器包括采集用户行为数据采集脚本文件和脚本代码收集的用户行为的采集部件,将用户行为数据重组成指定规格的用户行为数据包的数据转换部件,以及通过HTTP协议向用户行为采集服务器发送用户行为数据包的发送部件;
所述文件数据传输部件包括将用户行为数据包转化成用户行为日志文件的数据转换部件,以及将用户行为日志文件发送至数据收集云存储的传输部件;
所述数据收集云存储包括数据接收部件,以及数据存储部,所述数据接收部件接收文件数据传输部件发来的用户行为日志文件,所述数据存储部收集数据接收部件收到的用户行为日志文件;
所述文件数据收集部件包括监控数据收集云存储上不断增加的用户行为日志文件的数据监控部件,以及实时的将日志文件中的数据传输给大数据存储数据传输部件;
所述HDFS大数据存储包括数据存储器,支撑存储器的存储系统以及用户行为数据数据库。
6.根据权利要求5所述的基于大数据的网站用户行为数据采集方法的系统,其特征在于:
所述文件数据收集部件包括监控数据收集云存储上新增加的用户行为日志文件的数据监控部件,以及实时的将日志文件中新增加的数据传输给大数据存储数据传输部件。
7.一种应用权利要求1基于大数据的网站用户行为数据采集方法的应用,其特征在于:包括网站、论坛、社区、APP、电子商务平台、网上商城、或微信平台。
8.一种应用权利要求4基于大数据的网站用户行为数据采集系统的应用,其特征在于:包括网站、论坛、社区、APP、电子商务平台、网上商城、或微信平台。
CN201711147181.0A 2017-11-17 2017-11-17 基于大数据的网站用户行为数据采集方法、系统及应用 Pending CN107908748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711147181.0A CN107908748A (zh) 2017-11-17 2017-11-17 基于大数据的网站用户行为数据采集方法、系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711147181.0A CN107908748A (zh) 2017-11-17 2017-11-17 基于大数据的网站用户行为数据采集方法、系统及应用

Publications (1)

Publication Number Publication Date
CN107908748A true CN107908748A (zh) 2018-04-13

Family

ID=61846104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711147181.0A Pending CN107908748A (zh) 2017-11-17 2017-11-17 基于大数据的网站用户行为数据采集方法、系统及应用

Country Status (1)

Country Link
CN (1) CN107908748A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189597A (zh) * 2018-10-29 2019-01-11 南京感度信息技术有限责任公司 用于网页和app轻量化用户行为数据采集方法、系统及应用
CN109460389A (zh) * 2018-11-29 2019-03-12 四川长虹电器股份有限公司 一种基于openresty的日志记录方法
CN110955642A (zh) * 2019-10-12 2020-04-03 平安科技(深圳)有限公司 数据采集优化方法、装置、设备及可读存储介质
CN111241449A (zh) * 2020-01-14 2020-06-05 上海风秩科技有限公司 一种日志数据发送方法及装置
CN111352811A (zh) * 2018-12-24 2020-06-30 中移(杭州)信息技术有限公司 一种用户行为数据采集方法、装置、设备及介质
CN114389900A (zh) * 2022-03-23 2022-04-22 广东睿江云计算股份有限公司 一种基于OpenResty异常流量捕获与拦截的方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103152377A (zh) * 2012-12-13 2013-06-12 中国科学院深圳先进技术研究院 一种面向ftp服务的数据访问方法
CN103838867A (zh) * 2014-03-20 2014-06-04 网宿科技股份有限公司 日志处理方法和装置
CN104579789A (zh) * 2015-01-23 2015-04-29 广东能龙教育股份有限公司 一种基于消息队列的海量用户行为数据采集方法与系统
CN105025090A (zh) * 2015-06-24 2015-11-04 上海斐讯数据通信技术有限公司 一种数据传输定制系统和方法
CN105337753A (zh) * 2014-08-06 2016-02-17 中国移动通信集团广东有限公司 一种互联网真实质量监测方法及装置
CN106599075A (zh) * 2016-11-14 2017-04-26 武汉斗鱼网络科技有限公司 一种统计用户行为数据的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103152377A (zh) * 2012-12-13 2013-06-12 中国科学院深圳先进技术研究院 一种面向ftp服务的数据访问方法
CN103838867A (zh) * 2014-03-20 2014-06-04 网宿科技股份有限公司 日志处理方法和装置
CN105337753A (zh) * 2014-08-06 2016-02-17 中国移动通信集团广东有限公司 一种互联网真实质量监测方法及装置
CN104579789A (zh) * 2015-01-23 2015-04-29 广东能龙教育股份有限公司 一种基于消息队列的海量用户行为数据采集方法与系统
CN105025090A (zh) * 2015-06-24 2015-11-04 上海斐讯数据通信技术有限公司 一种数据传输定制系统和方法
CN106599075A (zh) * 2016-11-14 2017-04-26 武汉斗鱼网络科技有限公司 一种统计用户行为数据的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩丽颖: "基于Hadoop技术的轨道交通MSS系统数据存储应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189597A (zh) * 2018-10-29 2019-01-11 南京感度信息技术有限责任公司 用于网页和app轻量化用户行为数据采集方法、系统及应用
CN109460389A (zh) * 2018-11-29 2019-03-12 四川长虹电器股份有限公司 一种基于openresty的日志记录方法
CN109460389B (zh) * 2018-11-29 2021-08-06 四川长虹电器股份有限公司 一种基于openresty的日志记录方法
CN111352811A (zh) * 2018-12-24 2020-06-30 中移(杭州)信息技术有限公司 一种用户行为数据采集方法、装置、设备及介质
CN111352811B (zh) * 2018-12-24 2023-04-28 中移(杭州)信息技术有限公司 一种用户行为数据采集方法、装置、设备及介质
CN110955642A (zh) * 2019-10-12 2020-04-03 平安科技(深圳)有限公司 数据采集优化方法、装置、设备及可读存储介质
WO2021068568A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 数据采集优化方法、装置、设备及可读存储介质
CN111241449A (zh) * 2020-01-14 2020-06-05 上海风秩科技有限公司 一种日志数据发送方法及装置
CN114389900A (zh) * 2022-03-23 2022-04-22 广东睿江云计算股份有限公司 一种基于OpenResty异常流量捕获与拦截的方法和系统

Similar Documents

Publication Publication Date Title
CN107908748A (zh) 基于大数据的网站用户行为数据采集方法、系统及应用
CN105824744B (zh) 一种基于b2b平台的实时日志采集分析方法
CN105357054B (zh) 网站流量分析方法、装置和电子设备
CN101715004B (zh) 面向网络视频的分布式采集方法和系统
CN104424229B (zh) 一种多维度拆分的计算方法及系统
CN103414608B (zh) 快速的web流量采集统计系统和方法
CN105490854B (zh) 实时日志收集方法、系统和应用服务器集群
US20160301732A1 (en) Systems and Methods for Recording and Replaying of Web Transactions
CN104869009B (zh) 网站数据统计的系统和方法
CN103617287A (zh) 一种分布式环境下的日志管理方法和装置
CN103399861B (zh) 一种网址导航中的网址推荐方法、装置和系统
CN103279567A (zh) 一种基于AJAX的Web数据采集方法及系统
CN104426713A (zh) 网络站点访问效果数据的监测方法和装置
CN106547793A (zh) 获取代理服务器地址的方法和装置
CN107145556B (zh) 通用的分布式采集系统
CN106126648A (zh) 一种基于重做日志的分布式商品信息爬虫方法
CN109359263B (zh) 一种用户行为特征提取方法及系统
CN106878409A (zh) 一种游戏数据处理系统及处理方法
CN105721578A (zh) 一种用户行为数据采集方法和系统
CN105577528A (zh) 一种基于虚拟机的微信公众号数据采集方法及装置
CN102831114A (zh) 实现互联网用户访问情况统计分析的方法及装置
CN105930502B (zh) 一种收集数据的系统、客户端和方法
CN207369077U (zh) 基于大数据的网站用户行为数据采集系统
US8898300B2 (en) Systems and methods for collecting and storing network traffic data
CN101515945A (zh) 一种p2p资源文件的在线应用方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180413

RJ01 Rejection of invention patent application after publication