CN106469185A - 一种网站统计中进行数据收集的方法 - Google Patents

一种网站统计中进行数据收集的方法 Download PDF

Info

Publication number
CN106469185A
CN106469185A CN201610745352.9A CN201610745352A CN106469185A CN 106469185 A CN106469185 A CN 106469185A CN 201610745352 A CN201610745352 A CN 201610745352A CN 106469185 A CN106469185 A CN 106469185A
Authority
CN
China
Prior art keywords
data
data collection
script
user
javascript
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610745352.9A
Other languages
English (en)
Inventor
刘增辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201610745352.9A priority Critical patent/CN106469185A/zh
Publication of CN106469185A publication Critical patent/CN106469185A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种网站统计中进行数据收集的方法,其实现过程为:首先设置javascript埋点脚本,当用户打开网页时,页面中的埋点javascript片段被执行,这个埋点为数据收集脚本;数据收集之后,javascript向后台发送一个数据请求,并将收集到的数据通过http参数的方式传递给后台;后台脚本解析参数按照固定格式记录访问日志或者保存数据库。该一种网站统计中进行数据收集的方法与现有技术相比,以异步的形式执行js脚本,不会阻塞浏览器的正常浏览功能;可以收集到多种数据信息;收集的这些信息,会发送到专门的数据收集后台,保存到数据库或者以日志的形式记录下来,实现数据的持久化,保证数据不会丢失,实用性强,易于推广。

Description

一种网站统计中进行数据收集的方法
技术领域
本发明涉及计算机技术领域,具体地说是一种实用性强、网站统计中进行数据收集的方法。
背景技术
网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。
网站访问数据收集可方便了解网站的目标人群特征,为产品设计提供重要依据;了解网站关注行业用户量的潜在规模;与行业平均指标做对比,作为评估自身网站发展的指标;分析网站与竞争对手之间的用户重合度;分析自身网站内部各栏目间的用户重合度。
但是现有的网站数据统计分析工具种类较少且类型单一,实现起来比较繁琐,功能虽然强大但是成本较高,同时数据丢失率较高,基于此,现提供一种简单易实现的网站统计中进行数据收集的方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、网站统计中进行数据收集的方法。
一种网站统计中进行数据收集的方法,其实现过程为:
首先设置javascript埋点脚本,当用户打开网页时,页面中的埋点javascript片段被执行,这个埋点为数据收集脚本;
数据收集之后,javascript向后台发送一个数据请求,并将收集到的数据通过http参数的方式传递给后台;
后台脚本解析参数按照固定格式记录访问日志或者保存数据库。
数据收集脚本被执行的具体过程为:当网页被打开,页面中的埋点javascript片段被执行,这个代码片段动态创建一个script标签,并将src指向一个单独的javascript文件,此时这个单独的javascript文件被浏览器请求到并执行,且这个javascript文件即为数据收集脚本。
后台接收到收集的数据后,进行分析和保存数据的过程,具体为:后台接收http请求,解析url中的参数,分析参数中数据,最后将信息以日志形式保存或者持久化到数据库中。
所述参数中的数据,即数据收集脚本收集的数据包括http页面的title、用户屏幕的尺寸、用户显示器分辨率、用户的ip地址、用户的请求时间、用户的浏览次数信息,通过这些信息分析用户的行为。
还包括在http响应时给客户端种植用于追踪的cookie的步骤,具体为:后台接收到http请求并处理完数据之后,响应http,并设置cookie信息,cookie跟用户绑定,便于定位用户。
本发明的一种网站统计中进行数据收集的方法,具有以下优点:
本发明的一种网站统计中进行数据收集的方法,基于js的数据收集脚本,并且以异步的形式执行js脚本,不会阻塞浏览器的正常浏览功能;可以收集到多种数据信息,如页面title,referrer,用户显示器分辨率,cookie信息等,收集的这些信息,会发送到专门的数据收集后台,保存到数据库或者以日志的形式记录下来,实现数据的持久化,保证数据不会丢失,实用性强,易于推广。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明提出了一种实现网站统计中数据收集的方法,基本思路如下所示:
用户打开网页,页面中的埋点javascript片段会被执行,这个埋点就是真正的数据收集脚本,数据收集之后,javascript会向后台发送一个数据请求,并将收集到的数据通过http参数的方式传递给后台,后台脚本解析参数并按照固定格式记录访问日志或者保存数据库。同时在http响应中给客户端种植一些用于追踪的cookie。
本发明的具体实现步骤为:
第一步:设置javascript埋点脚本,下面提供一份埋点脚本。
<script>
var _gaq = _gaq || []; _gaq.push(['_setAccount', 'UA-3577882']);
_gaq.push(['_trackPageview' ]);
(function(){
var ga = document.getElement('script');
ga.type = 'text/javascript';
ga.async = true;
ga.src= "http://inspur.com/data/static.js"
var s = document.getElementByTagName('script')[0];
s.parentNode.insertBefore(ga, s)
})();
</script>
异步加载static.js,static.js主要进行数据的收集工作,数据收集之后通过httpurl参数的形式传给后台。
第二步:后台脚本接收数据,分析,保存数据。后台接收http请求,解析url中的参数,分析参数中数据,例如获取http页面的title,获取用户屏幕的尺寸,获取用户的ip地址,用户的请求时间,用户的浏览次数等信息,通过这些信息分析用户的行为。最后将信息以日志形式保存或者持久化到数据库中。
第三步:后台响应,后台接收到http请求,处理完数据之后,响应http,并设置cookie信息,cookie跟用户绑定,便于定位用户。
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明做进一步地详细描述。
第一:用户的行为会触发浏览器对被统计页面的一个http请求,这里认为行为就是打开网页。
第二:当网页被打开,页面中的埋点javascript片段会被执行,这个代码片段一般会动态创建一个 script标签,并将src指向一个单独的js文件,此时这个单独的js文件会被浏览器请求到并执行,这个js往往就是真正的数据收 集脚本。
第三:数据收集完成后,js会请求一个后端的数据收集脚本,这个脚本可能由java、 python或其它服务端语言编写,js会将收集到的数据通过http参数的方式传递给后端脚本.
第四:后端脚本解析参数并按固定格式记录到访问日志,同时会在http响应中给客户端种植一些用于追踪的cookie。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种网站统计中进行数据收集的方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (5)

1.一种网站统计中进行数据收集的方法,其特征在于,其实现过程为:
首先设置javascript埋点脚本,当用户打开网页时,页面中的埋点javascript片段被执行,这个埋点为数据收集脚本;
数据收集之后,javascript向后台发送一个数据请求,并将收集到的数据通过http参数的方式传递给后台;
后台脚本解析参数按照固定格式记录访问日志或者保存数据库。
2.根据权利要求1所述的一种网站统计中进行数据收集的方法,其特征在于,数据收集脚本被执行的具体过程为:当网页被打开,页面中的埋点javascript片段被执行,这个代码片段动态创建一个script标签,并将src指向一个单独的javascript文件,此时这个单独的javascript文件被浏览器请求到并执行,且这个javascript文件即为数据收集脚本。
3.根据权利要求1所述的一种网站统计中进行数据收集的方法,其特征在于,后台接收到收集的数据后,进行分析和保存数据的过程,具体为:后台接收http请求,解析url中的参数,分析参数中数据,最后将信息以日志形式保存或者持久化到数据库中。
4.根据权利要求3所述的一种网站统计中进行数据收集的方法,其特征在于,所述参数中的数据,即数据收集脚本收集的数据包括http页面的title、用户屏幕的尺寸、用户显示器分辨率、用户的ip地址、用户的请求时间、用户的浏览次数信息,通过这些信息分析用户的行为。
5.根据权利要求1所述的一种网站统计中进行数据收集的方法,其特征在于,还包括在http响应时给客户端种植用于追踪的cookie的步骤,具体为:后台接收到http请求并处理完数据之后,响应http,并设置cookie信息,cookie跟用户绑定,便于定位用户。
CN201610745352.9A 2016-08-29 2016-08-29 一种网站统计中进行数据收集的方法 Pending CN106469185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610745352.9A CN106469185A (zh) 2016-08-29 2016-08-29 一种网站统计中进行数据收集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610745352.9A CN106469185A (zh) 2016-08-29 2016-08-29 一种网站统计中进行数据收集的方法

Publications (1)

Publication Number Publication Date
CN106469185A true CN106469185A (zh) 2017-03-01

Family

ID=58230256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610745352.9A Pending CN106469185A (zh) 2016-08-29 2016-08-29 一种网站统计中进行数据收集的方法

Country Status (1)

Country Link
CN (1) CN106469185A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933722A (zh) * 2017-03-06 2017-07-07 腾云天宇科技(北京)有限公司 一种网页应用监控方法、服务器和系统
CN107506476A (zh) * 2017-09-08 2017-12-22 上海炫萌网络科技有限公司 用户行为数据收集分析系统及分析方法
CN107870860A (zh) * 2017-05-05 2018-04-03 平安科技(深圳)有限公司 埋点验证系统及方法
CN108255993A (zh) * 2017-12-29 2018-07-06 北京三快在线科技有限公司 提取业务字段的方法、装置、电子设备及存储介质
CN109101406A (zh) * 2018-07-05 2018-12-28 北京西普阳光教育科技股份有限公司 基于前端埋点的响应式页面热力图的生成方法和装置
CN109145182A (zh) * 2017-06-15 2019-01-04 腾讯科技(深圳)有限公司 数据采集方法、装置、计算机设备及系统
CN109361574A (zh) * 2018-12-17 2019-02-19 广州天懋信息系统股份有限公司 基于JavaScript脚本的NAT检测方法、系统、介质和设备
CN109684567A (zh) * 2018-11-15 2019-04-26 贵阳语玩科技有限公司 一种App内活动页统计分析方法及装置
CN110995835A (zh) * 2019-12-02 2020-04-10 杭州麦达电子有限公司 一种实时采集已购电子资源数据库访问记录的方法
CN111061627A (zh) * 2019-11-20 2020-04-24 北京达佳互联信息技术有限公司 网页埋点方法、装置、电子设备及存储介质
CN111953743A (zh) * 2020-07-22 2020-11-17 广州朗国电子科技有限公司 一种通用数据的收集分析方法、装置及系统
CN112527558A (zh) * 2020-12-08 2021-03-19 广东小天才科技有限公司 一种分析子系统死机的方法、系统和终端设备
CN112882890A (zh) * 2021-01-27 2021-06-01 中国农业银行股份有限公司 一种日志采集方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104915296A (zh) * 2015-06-29 2015-09-16 北京金山安全软件有限公司 埋点测试方法、数据的查询方法及装置
CN105162822A (zh) * 2015-06-30 2015-12-16 浪潮(北京)电子信息产业有限公司 一种网站日志数据处理方法及装置
CN105357549A (zh) * 2015-11-09 2016-02-24 天津网络广播电视台有限公司 一种机顶盒数据采集系统及数据采集方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104915296A (zh) * 2015-06-29 2015-09-16 北京金山安全软件有限公司 埋点测试方法、数据的查询方法及装置
CN105162822A (zh) * 2015-06-30 2015-12-16 浪潮(北京)电子信息产业有限公司 一种网站日志数据处理方法及装置
CN105357549A (zh) * 2015-11-09 2016-02-24 天津网络广播电视台有限公司 一种机顶盒数据采集系统及数据采集方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933722A (zh) * 2017-03-06 2017-07-07 腾云天宇科技(北京)有限公司 一种网页应用监控方法、服务器和系统
CN106933722B (zh) * 2017-03-06 2019-12-31 腾云天宇科技(北京)有限公司 一种网页应用监控方法、服务器和系统
CN107870860B (zh) * 2017-05-05 2020-12-15 平安科技(深圳)有限公司 埋点验证系统及方法
CN107870860A (zh) * 2017-05-05 2018-04-03 平安科技(深圳)有限公司 埋点验证系统及方法
WO2018202171A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 埋点验证系统及方法
CN109145182A (zh) * 2017-06-15 2019-01-04 腾讯科技(深圳)有限公司 数据采集方法、装置、计算机设备及系统
CN109145182B (zh) * 2017-06-15 2022-07-12 腾讯科技(深圳)有限公司 数据采集方法、装置、计算机设备及系统
CN107506476A (zh) * 2017-09-08 2017-12-22 上海炫萌网络科技有限公司 用户行为数据收集分析系统及分析方法
CN108255993A (zh) * 2017-12-29 2018-07-06 北京三快在线科技有限公司 提取业务字段的方法、装置、电子设备及存储介质
CN109101406A (zh) * 2018-07-05 2018-12-28 北京西普阳光教育科技股份有限公司 基于前端埋点的响应式页面热力图的生成方法和装置
CN109684567A (zh) * 2018-11-15 2019-04-26 贵阳语玩科技有限公司 一种App内活动页统计分析方法及装置
CN109361574A (zh) * 2018-12-17 2019-02-19 广州天懋信息系统股份有限公司 基于JavaScript脚本的NAT检测方法、系统、介质和设备
CN111061627A (zh) * 2019-11-20 2020-04-24 北京达佳互联信息技术有限公司 网页埋点方法、装置、电子设备及存储介质
CN111061627B (zh) * 2019-11-20 2023-10-03 北京达佳互联信息技术有限公司 网页埋点方法、装置、电子设备及存储介质
CN110995835A (zh) * 2019-12-02 2020-04-10 杭州麦达电子有限公司 一种实时采集已购电子资源数据库访问记录的方法
CN110995835B (zh) * 2019-12-02 2022-08-19 杭州麦达电子有限公司 一种实时采集已购电子资源数据库访问记录的方法
CN111953743A (zh) * 2020-07-22 2020-11-17 广州朗国电子科技有限公司 一种通用数据的收集分析方法、装置及系统
CN112527558A (zh) * 2020-12-08 2021-03-19 广东小天才科技有限公司 一种分析子系统死机的方法、系统和终端设备
CN112882890A (zh) * 2021-01-27 2021-06-01 中国农业银行股份有限公司 一种日志采集方法及装置

Similar Documents

Publication Publication Date Title
CN106469185A (zh) 一种网站统计中进行数据收集的方法
CN1949259B (zh) 通过在网页中嵌入代码来采集网页的点击信息的方法
US20170255706A1 (en) Methods and apparatus to track web browsing sessions
US8869025B2 (en) Method and system for identifying advertisement in web page
AU774177B2 (en) Information collection system and information collection method on network, each using technique of internet, and recording medium in which the information collection method is recorded
CN106295382B (zh) 一种信息风险防控方法及装置
KR100755468B1 (ko) 웹 페이지 구조 분석을 통한 웹 사이트의 정보 파악 방법
CN104766014A (zh) 用于检测恶意网址的方法和系统
CN102314455A (zh) 计算网页点击流量的方法及系统
CN1494680A (zh) 收集高速缓存web内容的多样化web服务器活动数据
CN111882367B (zh) 一种通过用户上网行为分析进行在线广告监测跟踪的方法
CN102752288A (zh) 网络访问行为识别方法和装置
US20150302466A1 (en) Data determination method and device for a thermodynamic chart
CN110020339B (zh) 基于无埋点的网页数据采集方法及装置
CN104834674A (zh) 收集用户行为数据、信息推荐方法及装置
CN103297469A (zh) 一种网站数据的采集方法及装置
CN109428776B (zh) 一种网站流量的监控方法及装置
CN102510536A (zh) 一种互联网音视频下载方法
US20150082206A1 (en) Methods and apparatus to detect pop-up/pop-under windows in a browser
US20160323136A1 (en) Capture of web application state
US9465781B2 (en) Analysis of web application state
CN111177623A (zh) 信息处理方法及装置
CN101261643A (zh) 网站页面信息统计方法及装置
CN111882368A (zh) 一种在线广告dpi加密埋点及透传跟踪的方法
CN113505317A (zh) 一种违规广告识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170301

RJ01 Rejection of invention patent application after publication