CN106250404A - 一种用户操作分析的方法 - Google Patents

一种用户操作分析的方法 Download PDF

Info

Publication number
CN106250404A
CN106250404A CN201610577652.0A CN201610577652A CN106250404A CN 106250404 A CN106250404 A CN 106250404A CN 201610577652 A CN201610577652 A CN 201610577652A CN 106250404 A CN106250404 A CN 106250404A
Authority
CN
China
Prior art keywords
webpage
user
website
page
click
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610577652.0A
Other languages
English (en)
Inventor
黎健生
梁远鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liuzhou Longhui Science & Technology Co Ltd
Original Assignee
Liuzhou Longhui Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liuzhou Longhui Science & Technology Co Ltd filed Critical Liuzhou Longhui Science & Technology Co Ltd
Priority to CN201610577652.0A priority Critical patent/CN106250404A/zh
Publication of CN106250404A publication Critical patent/CN106250404A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种用户操作分析的方法,包括步骤如下:(1)分析对象确定;(2)页面埋点;(3)日志收集;(4)HDFS分布式文件系统存储;(5)分布式汇总计算;(6)结果展现。本发明所述方法支持海量(亿级别/天)访问量的网站,准实时的展现网站浏览量、点击量等数据,并支持明细数据毫秒级查询。本发明所述的方法完全基于开源软件开发,使用普通pcserver,普通sata硬盘,系统架构使用冗余设计,任何数据节点或磁盘损坏后数据都不会丢失。本发明各个环节都实现自动化,支持图形化监控,运维简单。

Description

一种用户操作分析的方法
技术领域
本发明涉及网络监控分析的技术领域,尤其涉及一种用户操作分析的方法,属于。
背景技术
传统的用户访问网站的行为的分析方法,是根据用户访问网站功能的url日志,导入关系数据库汇总分析,数据量大耗时,很难做到实时或准实时分析展现用户访问网站的行为,耗时耗人工且信息丢失,用户不产生页面请求的行为将被丢失,无法支撑大并发的电子商务网站分析用户访问行为,因此依据现有的传统的网站行为的分析方法很难对广告投放等网络营销提供及时的数据支撑依据。
发明内容
针对现有技术的不足,本发明提供一种用户操作分析的方法。该方法通过监听用户页面操作行为,将用户在网页上的操作行为通过监听收集起来,存入hdfs分布式文件系统,利用hadoop-hive进行分布式汇总快速大数据运算,每隔半小时统计一次数据,实现用户网站行为的准实时统计分析,为广告投放等网络营销提供准实时数据支撑,整个过程自动化不需要人工干预。对大数据的快速计算模型。
本发明的技术方案如下:
一种用户操作分析的方法,包括步骤如下:
(1)分析对象确定:用户在网站上的操作行为包括网页页面浏览和网页页面内对可点击元素的点击;所述网页的页面使用URL作为标识,所述网页页面可点击元素使用ID作为标识;定义分析对象包括:用户对网页页面URL的访问(PV:page view)数量、用户对网页页面元素的点击(CV:click view)数量以及不同用户类型、不同时间、不同地域所分别对应的网页页面访问数量和网页页面元素点击数量;
(2)页面埋点:在需要做用户操作分析的网站的框架页面添加用按照步骤(1)确定分析对象后形成的用户操作分析的脚本文件,即可实现监听并跟踪用户访问网站的行为,当用户按照步骤(1)所述的分析对象对网页页面进行访问或对网页页面元素进行点击时,自动请求一次日志服务器的1K大小的图片,实现往标签服务器打点的目的;
(3)日志收集:日志收集使用apache作为日志服务器,用户对网页页面元素操作时,将对分析对象的操作及操作者的信息拼装成对图片请求的参数,发送给日志服务器apache,日志服务器apache每收到一次请求即记录一条日志记录,实现日志收集;通过分析页面浏览日志收集用户在网站打开网页的信息,通过分析用户在网站上的点击按钮、链接、图片的日志收集用户在网站网页中的点击行为;
(4)HDFS分布式文件系统存储:将收集的apache日志服务器所存的日志通过Hadoop Hive结构化后存储到Hadoop分布式文件系统中,Hadoop分布式文件系统(HadoopDistributed File System HDFS)是运行在通用硬件(普通pcserver或者普通pc)上的分布式文件系统;所述hadoop提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展;
(5)分布式汇总计算:利用Hadoop Hive支持HSql的特性,通过书写HSql在HDFS集群环境下,利用Hadoop的MapReduce在多台机器上并行计算,计算每个网页页面每半小时、每天、每月的浏览量和点击量;如:某天12:00~12:30半小时内,网站所有URL都有哪些用户点击了,点击了多少次等;
(6)结果展现:分布式汇总计算的统计结果通过Apache Sqoop将网站、网页页面、用户、按钮的访问数量的数据自动从HDFS中转移至Mysql关系数据库表中,使用java web程序访问mysql数据库,以html页面图表和列表的方式展现网页、广告、图片、按钮实时和一段时间内的网页页面浏览量或网页页面的点击量;所述网页页面浏览量、网页页面元素点击的明细数据以列式存储在HBase分布式数据库中,支持毫秒级的查询。为广告投放、网站营销等提供延迟半小时的准实时访问量数据依据,指导网站更精准的投放广告,开展网上营销。
本发明的优势:
1.本发明所述方法支持海量(亿级别/天)访问量的网站,准实时的展现网站浏览量、点击量等数据,并支持明细数据毫秒级查询。
2.本发明所述的方法完全基于开源软件开发,使用普通pcserver,普通sata硬盘,系统架构使用冗余设计,任何数据节点或磁盘损坏后数据都不会丢失。本发明各个环节都实现自动化,支持图形化监控,运维简单。
3.本发明所述方法支持网站快速使用,安装简单,报表展现只需简单修改SQL,可灵活定制,并可根据客户个性化需求只需增加一些指标,增加一些展现SQL即可实现个性化改造,快速实现。
具体实施方式
下面结合实施例对本发明做详细的说明,但不限于此。
实施例1、
一种用户操作分析的方法,包括步骤如下:
(1)分析对象确定:用户在网站上的操作行为包括网页页面浏览和网页页面内对可点击元素的点击;所述网页的页面使用URL作为标识,所述网页页面可点击元素使用ID作为标识;定义分析对象包括:用户对网页页面URL的访问(PV:page view)数量、用户对网页页面元素的点击(CV:click view)数量以及不同用户类型、不同时间、不同地域所分别对应的网页页面访问数量和网页页面元素点击数量;
(2)页面埋点:在需要做用户操作分析的网站的框架页面添加用按照步骤(1)确定分析对象后形成的用户操作分析的脚本文件,即可实现监听并跟踪用户访问网站的行为,当用户按照步骤(1)所述的分析对象对网页页面进行访问或对网页页面元素进行点击时,自动请求一次日志服务器的1K大小的图片,实现往标签服务器打点的目的;
(3)日志收集:日志收集使用apache作为日志服务器,用户对网页页面元素操作时,将对分析对象的操作及操作者的信息拼装成对图片请求的参数,发送给日志服务器apache,日志服务器apache每收到一次请求即记录一条日志记录,实现日志收集;通过分析页面浏览日志收集用户在网站打开网页的信息,通过分析用户在网站上的点击按钮、链接、图片的日志收集用户在网站网页中的点击行为;
(4)HDFS分布式文件系统存储:将收集的apache日志服务器所存的日志通过Hadoop Hive结构化后存储到Hadoop分布式文件系统中,Hadoop分布式文件系统(HadoopDistributed File System HDFS)是运行在通用硬件(普通pcserver或者普通pc)上的分布式文件系统;所述hadoop提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展;
(5)分布式汇总计算:利用Hadoop Hive支持HSql的特性,通过书写HSql在HDFS集群环境下,利用Hadoop的MapReduce在多台机器上并行计算,计算每个网页页面每半小时、每天、每月的浏览量和点击量;如:某天12:00~12:30半小时内,网站所有URL都有哪些用户点击了,点击了多少次等;
(6)结果展现:分布式汇总计算的统计结果通过Apache Sqoop将网站、网页页面、用户、按钮的访问数量的数据自动从HDFS中转移至Mysql关系数据库表中,使用java web程序访问mysql数据库,以html页面图表和列表的方式展现网页、广告、图片、按钮实时和一段时间内的网页页面浏览量或网页页面的点击量;所述网页页面浏览量、网页页面元素点击的明细数据以列式存储在HBase分布式数据库中,支持毫秒级的查询。为广告投放、网站营销等提供延迟半小时的准实时访问量数据依据,指导网站更精准的投放广告,开展网上营销。
利用上述所述的方法实现对以下网站进行监控分析:新商盟电子商务网站www.xinshangmeng.com使用的例子:
1、新商盟网站是统一前端框架的jsp页面负责页面展示,可以点击的元素主要是一些按钮、菜单或图片链接等,因此对新商盟网站用户的行为进行分析,主要分析页面的浏览和页面元素的点击页面以jsp页面的url为标识,页面元素以页面元素的id或name或label为标识。
2、在新商盟网站前端框架层页面layout.jsp中引入用户操作分析收集信息的js文件install_up_beacon.js和
up_beacon.js。js负责在打开页面或点击页面元素时,请求标签服务器记录日志。
3、日志收集采取记录apache服务器access日志的方式,一条日志为一个页面浏览或点击事件,日志以固定格式记录访问事件的各种参数,如:时间、用户、用户所属公司、用户使用浏览器版本、ip地址等。每半小时生成一个新的日志文件。
4、日志服务器生成的日志文件,通过自动化程序,直接load进hadoop分布式文件系统,因为每条记录都是结构化的,load进hdfs时,结构化到hive的表中,供hive做汇总计算,明细数据同时存入hbase数据库,目前新商盟网站用户行为分析分布式文件系统服务器采用5台廉价pc服务器,进行存储计算。
5、使用hive的hsql对load进来的结构化好的数据,做汇总计算,按照半小时、天、月等维度及访问用户所属的地域或组织机构进行计算,汇总结果存储在hive的表中。如每天网站的页面浏览量,按钮点击量,用户量,用户停留时长等。
6、将汇总结果使用sqoop程序由hdfs转移至关系数据库mysql,使用web应用的报表、图表展现,并为网站提供接口,供网站使用,明细数据直接访问hbase数据库,实时展现。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (1)

1.一种用户操作分析的方法,包括步骤如下:
(1)分析对象确定:用户在网站上的操作行为包括网页页面浏览和网页页面内对可 点击元素的点击;所述网页的页面使用URL作为标识,所述网页页面可点击元素使用ID 作为标识;定义分析对象包括:用户对网页页面URL的访问(PV:page view)数量、用 户对网页页面元素的点击(CV:click view)数量以及不同用户类型、不同时间、不同 地域所分别对应的网页页面访问数量和网页页面元素点击数量;
(2)页面埋点:在需要做用户操作分析的网站的框架页面添加用按照步骤(1)确定 分析对象后形成的用户操作分析的脚本文件,当用户按照步骤(1)所述的分析对象对网 页页面进行访问或对网页页面元素进行点击时,自动请求一次日志服务器的1K大小的图 片,实现往标签服务器打点的目的;
(3)日志收集:日志收集使用apache作为日志服务器,用户对网页页面元素操作 时,将对分析对象的操作及操作者的信息拼装成对图片请求的参数,发送给日志服务器 apache,日志服务器apache每收到一次请求即记录一条日志记录,实现日志收集;通过 分析页面浏览日志收集用户在网站打开网页的信息,通过分析用户在网站上的点击按钮、 链接、图片的日志收集用户在网站网页中的点击行为;
(4)HDFS分布式文件系统存储:将收集的apache日志服务器所存的日志通过 HadoopHive结构化后存储到Hadoop分布式文件系统中,Hadoop分布式文件系统(HadoopDistributed File System HDFS)是运行在通用硬件(普通pcserver或者普通pc)上 的分布式文件系统;
(5)分布式汇总计算:利用Hadoop Hive支持HSql的特性,通过书写HSql在HDFS 集群环境下,利用Hadoop的MapReduce在多台机器上并行计算,计算每个网页页面每半 小时、每天、每月的浏览量和点击量;
(6)结果展现:分布式汇总计算的统计结果通过Apache Sqoop将网站、网页页 面、用户、按钮的访问数量的数据自动从HDFS中转移至Mysql关系数据库表中,使用 java web程序访问mysql数据库,以html页面图表和列表的方式展现网页、广告、图 片、按钮实时和一段时间内的网页页面浏览量或网页页面的点击量;所述网页页面浏览 量、网页页面元素点击的明细数据以列式存储在HBase分布式数据库中,支持毫秒级的 查询。
CN201610577652.0A 2016-07-21 2016-07-21 一种用户操作分析的方法 Pending CN106250404A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610577652.0A CN106250404A (zh) 2016-07-21 2016-07-21 一种用户操作分析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610577652.0A CN106250404A (zh) 2016-07-21 2016-07-21 一种用户操作分析的方法

Publications (1)

Publication Number Publication Date
CN106250404A true CN106250404A (zh) 2016-12-21

Family

ID=57613515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610577652.0A Pending CN106250404A (zh) 2016-07-21 2016-07-21 一种用户操作分析的方法

Country Status (1)

Country Link
CN (1) CN106250404A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909372A (zh) * 2017-01-23 2017-06-30 武汉奇米网络科技有限公司 一种移动端用户购买路径计算方法及系统
CN107239572A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种存储管理软件的数据缓存方法及装置
CN107800757A (zh) * 2017-03-28 2018-03-13 平安壹钱包电子商务有限公司 用户行为记录方法及装置
CN108363657A (zh) * 2018-01-25 2018-08-03 上海连尚网络科技有限公司 监控app客户端埋点数据采集完整性的方法、设备以及介质
CN108710573A (zh) * 2018-05-21 2018-10-26 北京五八信息技术有限公司 一种基于日志埋点的测试方法、装置、存储介质及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530431A (zh) * 2013-11-06 2014-01-22 北京国双科技有限公司 用于网页页面点击量统计的数据处理方法和装置
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN105468737A (zh) * 2015-11-24 2016-04-06 湖北大学 一种网络服务大数据分析方法、云计算平台及挖掘系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530431A (zh) * 2013-11-06 2014-01-22 北京国双科技有限公司 用于网页页面点击量统计的数据处理方法和装置
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN105468737A (zh) * 2015-11-24 2016-04-06 湖北大学 一种网络服务大数据分析方法、云计算平台及挖掘系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909372A (zh) * 2017-01-23 2017-06-30 武汉奇米网络科技有限公司 一种移动端用户购买路径计算方法及系统
CN106909372B (zh) * 2017-01-23 2020-08-18 武汉奇米网络科技有限公司 一种移动端用户购买路径计算方法及系统
CN107800757A (zh) * 2017-03-28 2018-03-13 平安壹钱包电子商务有限公司 用户行为记录方法及装置
CN107239572A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种存储管理软件的数据缓存方法及装置
CN108363657A (zh) * 2018-01-25 2018-08-03 上海连尚网络科技有限公司 监控app客户端埋点数据采集完整性的方法、设备以及介质
CN108363657B (zh) * 2018-01-25 2021-07-06 上海连尚网络科技有限公司 监控app客户端埋点数据采集完整性的方法、设备以及介质
CN108710573A (zh) * 2018-05-21 2018-10-26 北京五八信息技术有限公司 一种基于日志埋点的测试方法、装置、存储介质及终端

Similar Documents

Publication Publication Date Title
CN103916293B (zh) 一种监控分析网站用户行为的方法
CN106250404A (zh) 一种用户操作分析的方法
CN106294101B (zh) 页面打点测试方法和装置
CN101743542B (zh) 收集和呈现基于时间的动作信息
Mistry et al. Introducing Microsoft SQL Server 2014
CN109416643A (zh) 应用程序迁移系统
US20120143816A1 (en) Method and System of Information Matching in Electronic Commerce Website
WO2016153962A1 (en) Methods and systems for predictive engine evaluation, tuning, and replay of engine performance
CN103631699A (zh) 日志管理系统及日志监控、获取和查询方法
CN104182506A (zh) 日志管理方法
CN101582090A (zh) 一种基于web分析的分布式处理方法和系统
CN109255093A (zh) 行为数据处理方法、装置、电子设备及计算机可读介质
JP5264981B2 (ja) ユーザ行動分析方法及びユーザ行動分析システム
Balaž et al. Development of grid e-infrastructure in south-eastern Europe
US10127617B2 (en) System for analyzing social media data and method of analyzing social media data using the same
CN106355489A (zh) 一种面向管理的数据中心系统及数据处理方法
Qi et al. A cloud-based triage log analysis and recovery framework
CN101944110A (zh) 一种触摸屏报刊阅读系统
Martinviita Time series database in Industrial IoT and its testing tool
US20130024480A1 (en) Method and system for analysis of database records
US20220067111A1 (en) System and method for comparing zones for different versions of a website based on performance metrics
CN114595473A (zh) 访问数据处理方法和装置、电子设备、计算机可读介质
KR101640870B1 (ko) 업무이력 로그 관리 시스템 및 방법
KR102074419B1 (ko) 지능형 상품정보 갱신 서버 및 그를 이용한 지능형 상품정보 갱신 방법
Šimunić et al. Tourism and e-business: The semantic paradigm as a precondition for success

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 52 Kwun Tong Road in Liuzhou city of the Guangxi Zhuang Autonomous Region in 545005

Applicant after: LIUZHOU LONGHUI SCIENCE & TECHNOLOGY CO., LTD.

Address before: 545005 the Guangxi Zhuang Autonomous Region Liuzhou Liunan District City Station Road No. 94, a new era of commercial port logistics warehousing center No. 5 Floor 4 No. 022

Applicant before: LIUZHOU LONGHUI SCIENCE & TECHNOLOGY CO., LTD.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161221