CN104869009B - 网站数据统计的系统和方法 - Google Patents
网站数据统计的系统和方法 Download PDFInfo
- Publication number
- CN104869009B CN104869009B CN201410265616.1A CN201410265616A CN104869009B CN 104869009 B CN104869009 B CN 104869009B CN 201410265616 A CN201410265616 A CN 201410265616A CN 104869009 B CN104869009 B CN 104869009B
- Authority
- CN
- China
- Prior art keywords
- data
- website
- record
- user
- statistics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种数据统计方法,具体是一种网站数据统计的系统和方法。用于对网站访问量基本数据进行统计、分析,掌握网站流量趋势、洞察访客行为习惯的方法,包括:在网站页面添加数据统计代码和设置数据传输代码,用以判断、创建、记录和传输用户访问网站的基本信息;部署后台处理程序,进行程序分析,发送数据,并对数据进行分组处理;根据需要分成多个表文件用于记录数据;数据可视化展示,通过使用图表组件,以及服务器端架构,对数据内容进行展示。硬件消耗少,与生产环境分离处理,可扩展性好。
Description
技术领域
本发明涉及一种数据统计方法,具体是一种网站数据统计的系统和方法。
背景技术
网站流量统计分析,是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,掌握网站流量趋势、洞察访客行为习惯的工具,通过此系统可以直观的了解网站用户群的大小、地域分布、网站内容的关注度、网站来源、用户在访问过的每个页面上的鼠标事件(点击、滑过)以及关注内容区域分布及所关注时间长短,页面浏览高度、位置都将被精准捕捉到,通过鼠标轨迹热图、关注热图、点击热图和滚动热图全方位给您展现多种信息。以了解网站当前的访问效果和访问用户行为并发现当前网络营销活动中存在的问题,并为进一步修正或重新制定网络营销策略提供依据。
但是目前基于互联网的网站访问统计系统,并不能精准了解每个网站注册用户的性别、访问兴趣,不能做到对用户分析有的放矢,分析用户购物行为习惯和喜好,不能有效实现智能精准推荐,不能有效帮助网站进行精准营销和对症下药。
发明内容
本发明针对现有技术的不足,提供一种网站数据统计的系统和方法。
网站数据统计的方法,用于对网站访问量基本数据进行统计、分析,掌握网站流量趋势、洞察访客行为习惯的方法,包括以下步骤:
在网站页面添加数据统计代码和设置数据传输代码,用以判断、创建、记录和传输用户访问网站的基本信息;
部署后台处理程序,进行程序分析,发送数据,并对数据进行分组处理;
根据需要分成多个表文件用于记录数据;
数据可视化展示,通过使用图表组件,以及服务器端架构,对数据内容进行展示。
所述基本信息的记录包括浏览器的头信息、ip、访问功能代码、操作代码和reffer信息。
通过记录的头信息,判断来源的浏览器类型、操作系统类型,通过判断记录来访时间。
通过reffer信息获取上一个页面信息,判断用户访问浏览深度,通过基本信息,判断是否已记录用户,多用户身份验证,用户访问轨迹记录,并对数据进行文件缓存处理,对部分数据进行分月分表记录,以减少数据量过大对服务器的压力,并且优化合理的索引结构增加速度。
表文件包括帖文统计总表,帖文日/时分月记录表,访问深度记录表,用户行为记录按月统计表,用户终端按月记录表,板块ip/p按日/时统计分月记录表,爬虫统计分月记录表,爬虫来访记录分月记录表,搜索引擎来源分月记录表,搜索引擎来源次数分月记录表,停留时间记录表,用户id验证表。
服务器端架构为LAMP服务器端架构。
网站数据统计的系统,包括服务器,内存服务器和数据分析处理服务器,在服务器的网站页面添加数据统计代码和设置数据传输代码,用以判断、创建、记录和传输用户访问网站的基本信息;内存服务器内用于数据库进行信息存储;数据分析处理服务器用于根据实际的数据分析需求,编辑操作表、数据记录、程序分析,发送数据,并对数据进行分组处理。
所述内存服务器为redis内存服务器。
本发明的有益效果:
第一,硬件消耗少,redis核心内存处理框架可以更快速的实现数据的存取,比使用关系数据库性能更高。
第二,与生产环境分离处理,可以减少大数据量分析对服务器性能的影响,处理速度快,内容精准。
第三,可扩展性好,能够适应各种数据统计的需求,进行针对性开发,数据记录完整,可以回滚,重复检索,适合大数据挖掘。
附图说明
图1为系统流程图;
图2访问数据记录流程图;
图3为后台数据梳理流程图;
具体实施方式
下面结合附图,对本发明实现数据统计所采取的技术方案做进一步说明:
1、在网站页面里添加数据统计代码,用于传输数据到后端队列存储服务器,根据网页类型设置数据传输代码。根据业务形式进行数据结构设计,分为列表页,内容页,发帖,回帖,编辑,搜索,分类标签,图集,删帖,登录 等操作,并对用户访问时做一个唯一性hash存储到用户的cookie中,根据用户实际的登陆情况,以及cookie进行用户身份的辨别。
2、根据图2所示。1)用户访问WEB服务器,系统读取用户cookie信息,获取身份认证唯一代码;2)有记录并且获取到信息,根据页面类型和行为代码插入缓存队列;3)如无身份认证信息,则随机生成一个唯一验证码,用于用户登录;4)用户登录行为中,以前有cookie身份唯一代码,系统修改cookie信息存储的用户身份码,并重复2)插入缓存队列;5)用户之前无身份唯一代码,创建新的用户数据记录到da_suname表,并重复2)插入缓存队列。
3、部署后台处理程序,读取redis缓存队列,对数据进行处理,通过crontab 方式运行php脚本,从队列内逐条读取数据,进行程序分析,分发到数据库中。
4、根据实际的数据分析需求,分为帖子统计总表,帖子ip/pv/回复按日统计表,编辑用户表,ip统计表,编辑操作表,用户访问深度表,用户行文统计表,用户终端特性表,用户登录统计表,板块ip/pv/回复表,爬虫记录表,爬虫来访数据表,搜索引擎来源统计表,停留时间表,用户辨认表以及分表,共84个数据库表文件,用于数据记录。如图3所示。
5、根据图2、3所示,步骤3、4中分析得到的数据通过jquery 和 chart 组件,对数据进行可视化展示,根据实际需求进行展示方式的设置,使用LAMP架构,实现数据可视化。
本发明方法具体包括以下步骤:
(1)添加数据统计代码和设置数据传输代码。
(2)部署后台可读取redis缓存队列处理程序。
(3)根据要求分成84个表文件用于记录数据。
(4)实现数据可视化展示。
所述的添加数据统计代码和设置数据传输代码,包括如下步骤:
A)在每个页面里添加用户数据统计代码,每次访问时,判断是否有登录记录cookie信息。
B)如果有直接记录到da_suname中的记录,作为用户登录的依据,否则创建一个新的cookie内容,保证内容的唯一性,用于用户身份认证。
C)如果判断用户后续操作中有登录情况, 则与da_sunname中记录做比较,如果没有,则把cookie记录作为新信息插入,否则把cookie信息改为之前的记录内容,以第一次数据为准,其他用户名同一为1个cookie认证值,用于多身份辨别。
D)根据用户访问的页面,记录用户的基本信息,包括浏览器的头信息,ip,访问功能代码,操作代码,reffer信息等各类内容,转化为json字符串,插入redis内存服务器的key中,数据以list结构存储,通过lpop方法插入数据。
所述的部署后台可读取redis缓存队列处理程序,包括如下步骤:
E)后台服务器端使用crontab 方式,定时执行脚本,对redis队列中的数据进行分组处理,通过lpush方式,依次读取队列中的数据,针对设计的分表结构,对每一条数据进行处理分组。
F)通过记录的头信息,判断来源的浏览器类型,操作系统类型,通过agent判断是否爬虫, 记录来访时间。
G)通过reffer信息获取上一个页面信息,判断用户访问浏览深度,通过cookie 中用户身份唯一码,判断是否已记录用户,多用户身份验证,用户访问轨迹记录,并对数据进行文件缓存处理,对部分数据进行分月分表记录,以减少数据量过大对服务器的压力,并且优化合理的索引结构增加速度。
所述的根据要求分成84个表文件用于记录数据,包括如下步骤:
H)在数据库中建立da_all帖文统计总表,da_topic_1404帖文日/时分月记录表,da_depth 访问深度记录表,da_userall_1404 用户行为记录按月统计表,da_user用户终端按月记录表,da_boardip板块ip/p按日/时统计分月记录表,da_searchers爬虫统计分月记录表,da_seastat爬虫来访记录分月记录表,da_engine搜索引擎来源分月记录表,da_engstat_搜索引擎来源次数分月记录表,da_staytime停留时间记录表,da_suname用户 id验证表。
所述的实现数据可视化展示,包括如下步骤:I)通过使用jquery+ 图表组件,以及lamp服务器端架构,对内容进行展示。
Claims (5)
1.网站数据统计的方法,用于对网站访问量基本数据进行统计、分析,掌握网站流量趋势、洞察访客行为习惯的方法,其特征在于,包括以下步骤:
(1)在网站页面添加数据统计代码和设置数据传输代码,用以判断、创建、记录和传输用户访问网站的基本信息;
(2)部署后台处理程序,进行程序分析,发送数据,并对数据进行分组处理;
(3)根据需要分成多个表文件用于记录数据;
(4)数据可视化展示,通过使用图表组件,以及服务器端架构,对数据内容进行展示;
所述基本信息的记录包括浏览器的头信息、ip、访问功能代码、操作代码和reffer信息;
步骤(2)中,通过reffer信息获取上一个页面信息,判断用户访问浏览深度,通过cookie中用户身份唯一码,判断是否已记录用户,多用户身份验证,以及用户访问轨迹记录,并对数据进行文件缓存处理,对部分数据进行分月分表记录,以减少数据量过大对服务器的压力,并且优化合理的索引结构增加速度;
步骤(3)中的表文件包括帖文统计总表,帖文日/时分月记录表,访问深度记录表,用户行为记录按月统计表,用户终端按月记录表,板块ip/p按日/时统计分月记录表,爬虫统计分月记录表,爬虫来访记录分月记录表,搜索引擎来源分月记录表,搜索引擎来源次数分月记录表,停留时间记录表,用户id验证表。
2.如权利要求1所述的网站数据统计的方法,其特征在于,所述步骤(2)中,通过记录的头信息,判断来源的浏览器类型、操作系统类型,通过agent判断是否爬虫,记录来访时间。
3.如权利要求1所述的网站数据统计的方法,其特征在于,所述步骤(4)中的服务器端架构为LAMP服务器端架构。
4.一种网站数据统计的系统,其特征在于,使用如权利要求1至3任一项所述的网站数据统计的方法,对网站访问量基本数据进行统计,包括服务器,内存服务器和数据分析处理服务器,在服务器的网站页面添加数据统计代码和设置数据传输代码,用以判断、创建、记录和传输用户访问网站的基本信息;内存服务器内用于数据库进行信息存储;数据分析处理服务器用于根据实际的数据分析需求,编辑操作表、数据记录、程序分析,发送数据,并对数据进行分组处理。
5.如权利要求4所述网站数据统计的系统,其特征在于,所述内存服务器为redis内存服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410265616.1A CN104869009B (zh) | 2014-06-16 | 2014-06-16 | 网站数据统计的系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410265616.1A CN104869009B (zh) | 2014-06-16 | 2014-06-16 | 网站数据统计的系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104869009A CN104869009A (zh) | 2015-08-26 |
CN104869009B true CN104869009B (zh) | 2019-03-12 |
Family
ID=53914551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410265616.1A Active CN104869009B (zh) | 2014-06-16 | 2014-06-16 | 网站数据统计的系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104869009B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630944A (zh) * | 2015-12-23 | 2016-06-01 | 北京金山安全软件有限公司 | 一种数据统计方法、系统及电子设备 |
CN105608207A (zh) * | 2015-12-25 | 2016-05-25 | 广州华多网络科技有限公司 | 一种基于Redis数据库的数据统计系统及其统计方法 |
CN107623583B (zh) * | 2016-07-15 | 2021-02-19 | 阿里巴巴集团控股有限公司 | 数据交互处理方法、装置及系统 |
CN107688568A (zh) * | 2016-08-03 | 2018-02-13 | 腾讯科技(深圳)有限公司 | 基于网页访问行为记录的采集方法及装置 |
CN106383869B (zh) * | 2016-09-05 | 2021-02-19 | Tcl科技集团股份有限公司 | 一种获取用户行为信息的方法及装置 |
CN106713034A (zh) * | 2016-12-23 | 2017-05-24 | 广州帷策智能科技有限公司 | 微信公众号制定用户群活跃度监测方法及装置 |
CN106713120A (zh) * | 2016-12-23 | 2017-05-24 | 广州帷策智能科技有限公司 | 微信公众号图文消息增粉效应监测方法及装置 |
CN106682167B (zh) * | 2016-12-26 | 2020-08-14 | 山东昆仲信息科技有限公司 | 用户行为数据的统计装置及方法 |
CN107220276B (zh) * | 2017-04-14 | 2021-02-12 | 弘成科技发展有限公司 | 直播和回放过程中考试排名方法 |
CN110020269A (zh) * | 2017-08-01 | 2019-07-16 | 上海福网信息科技有限公司 | 一种站点点击热力图系统 |
CN107784076A (zh) * | 2017-09-25 | 2018-03-09 | 北京京东尚科信息技术有限公司 | 可视化构建用户行为数据的方法和装置 |
CN107613015A (zh) * | 2017-10-11 | 2018-01-19 | 成都知道创宇信息技术有限公司 | 一种网站注册用户首访来源获取方法 |
CN109474654A (zh) * | 2018-02-09 | 2019-03-15 | 上海共启网络科技有限公司 | 一种购物网站访客访问监控统计系统及方法 |
CN109684592A (zh) * | 2019-01-28 | 2019-04-26 | 北京神奇华创信息技术有限公司 | 一种网站的数据统计分析方法及其系统 |
CN112784187A (zh) * | 2019-11-07 | 2021-05-11 | 北京沃东天骏信息技术有限公司 | 页面展示方法和装置 |
CN112685810B (zh) * | 2020-12-14 | 2023-04-11 | 中国十七冶集团有限公司 | 一种基于bim和3d打印技术的装配式建筑生产系统 |
CN112395352A (zh) * | 2020-12-23 | 2021-02-23 | 杉宝(济南)生物科技有限公司 | 一种用户行为轨迹数据分析系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937439A (zh) * | 2009-06-30 | 2011-01-05 | 国际商业机器公司 | 用于收集用户访问相关信息的方法和系统 |
CN102571404A (zh) * | 2010-12-31 | 2012-07-11 | 北京新媒传信科技有限公司 | 网站访问统计方法和网站访问统计系统 |
CN103138986A (zh) * | 2013-01-09 | 2013-06-05 | 天津大学 | 一种基于可视分析的网站异常访问行为的检测方法 |
CN103246661A (zh) * | 2012-02-07 | 2013-08-14 | 阿里巴巴集团控股有限公司 | 可视化用户行为收集系统及其方法 |
CN103443781A (zh) * | 2010-11-03 | 2013-12-11 | 谷歌公司 | 数据递送 |
-
2014
- 2014-06-16 CN CN201410265616.1A patent/CN104869009B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937439A (zh) * | 2009-06-30 | 2011-01-05 | 国际商业机器公司 | 用于收集用户访问相关信息的方法和系统 |
CN103443781A (zh) * | 2010-11-03 | 2013-12-11 | 谷歌公司 | 数据递送 |
CN102571404A (zh) * | 2010-12-31 | 2012-07-11 | 北京新媒传信科技有限公司 | 网站访问统计方法和网站访问统计系统 |
CN103246661A (zh) * | 2012-02-07 | 2013-08-14 | 阿里巴巴集团控股有限公司 | 可视化用户行为收集系统及其方法 |
CN103138986A (zh) * | 2013-01-09 | 2013-06-05 | 天津大学 | 一种基于可视分析的网站异常访问行为的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104869009A (zh) | 2015-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104869009B (zh) | 网站数据统计的系统和方法 | |
CN105677649B (zh) | 一种个性化网页排版的方法及装置 | |
WO2018036272A1 (zh) | 新闻内容的推送方法、电子装置及计算机可读存储介质 | |
JP5078674B2 (ja) | 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム | |
Pinto et al. | Using early view patterns to predict the popularity of youtube videos | |
CN104426713B (zh) | 网络站点访问效果数据的监测方法和装置 | |
CN103164427B (zh) | 新闻聚合方法及装置 | |
Duarte et al. | Traffic Characteristics and Communication Patterns in Blogosphere. | |
CN103874994A (zh) | 用于自动概括电子文档的内容的方法和装置 | |
CN102831114B (zh) | 实现互联网用户访问情况统计分析的方法及装置 | |
CN109800350A (zh) | 一种个性化新闻推荐方法及系统、存储介质 | |
CN103399861B (zh) | 一种网址导航中的网址推荐方法、装置和系统 | |
CN103077190A (zh) | 基于排序学习技术的热门事件排名方法 | |
CN102426610A (zh) | 微博搜索排名方法及微博搜索引擎 | |
CN103020159A (zh) | 一种面向事件的新闻展现方法和装置 | |
CN103744957A (zh) | 基于Web用户时间属性的序列模式挖掘方法 | |
US9245035B2 (en) | Information processing system, information processing method, program, and non-transitory information storage medium | |
CN103530429A (zh) | 一种网页正文抽取的方法 | |
CN103235796A (zh) | 一种基于用户点击行为的搜索方法及系统 | |
CN102811207A (zh) | 网络信息推送方法及系统 | |
CN104361092A (zh) | 搜索方法及装置 | |
GB2498762A (en) | Computing user traffic at the website based on user actions | |
CN103870452A (zh) | 数据推荐方法及系统 | |
CN103440328A (zh) | 一种基于鼠标行为的用户分类方法 | |
CN104636245A (zh) | 一种基于实时更新的用户浏览行为采集方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |