CN107483622A - 基于组件的浏览器操作行为数据采集方法 - Google Patents

基于组件的浏览器操作行为数据采集方法 Download PDF

Info

Publication number
CN107483622A
CN107483622A CN201710797710.5A CN201710797710A CN107483622A CN 107483622 A CN107483622 A CN 107483622A CN 201710797710 A CN201710797710 A CN 201710797710A CN 107483622 A CN107483622 A CN 107483622A
Authority
CN
China
Prior art keywords
data
component
browser
user
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710797710.5A
Other languages
English (en)
Inventor
梁林森
孙煜华
张志亮
陆慧
陆宏治
邹时容
吴永欢
梁哲辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau Co Ltd
Original Assignee
Guangzhou Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau Co Ltd filed Critical Guangzhou Power Supply Bureau Co Ltd
Priority to CN201710797710.5A priority Critical patent/CN107483622A/zh
Publication of CN107483622A publication Critical patent/CN107483622A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0806Configuration setting for initial configuration or provisioning, e.g. plug-and-play

Abstract

本发明公开一种基于组件机制的浏览器操作行为数据采集方法,其特征在于包括如下步骤:第一步:采集组件的部署;第二步:数据采集;第三步:数据存储;第四步:数据分析。本发明利用浏览器数据采集组件进行前端裸数据采集,可以自动高效地对浏览器操作行为进行数据采集,由于采用了浏览器插件机制,可以最大限度的获取用户在浏览器上的实时操作行为及网页状态。

Description

基于组件的浏览器操作行为数据采集方法
技术领域
本发明公开了一种基于组件机制的浏览器操作行为数据采集方法,属于计算机领域。
背景技术
浏览器组件技术
在WEB系统中,web系统的使用性能,包括web服务器的性能、客户端硬件服务器及操作系统的性能、浏览器系统的性能、web应用程序的性能包括后台程序及前台脚步程序的性能。web服务器的性能可以在web服务器上实时监测,但缺乏WEB系统的浏览器端用户操作行为实时检测、网页整体使用体验的评价手段。通过浏览器插件采集用户操作数据来实现web系统整体使用体验具备以下优点:
数据全面,一个插件采集系统可以对所有客户端浏览器操作进行检测。
实时性好,插件系统实时监测浏览器进程,用户在浏览器上的操作行为,插件能实时进行记录,存储到客户端本地文件,并在适当时机上传到指定数据服务器。
检测手段专业,有效地解决传统手段只能使用调查问卷的方式获取用户对浏览器操作的体验,或简单通过分析服务器性能来推断整体使用性能。
分析直接,分析使用的数据直接源于用户对浏览器的操作行为,数据比较直观。
管理统计方便,根据管理人员的配置,浏览器插件用户操作行为采集系统记录检测过程中发现的特定状况,可以只检测、采集分析系统关心的浏览器操作行为和页面或页面对象,并且可以对历史数据进行分析和统计。
发明内容
本发明针对web服务器整体性能及浏览器用户操作体验评价手段存在的不足,提出了一种基于浏览器组件机制的高效、实时、支持客户端采集用户浏览器操作行为的采集检测方法,称之为“基于组件的浏览器用户操作行为数据采集方法”。
本发明具体采用如下技术方案:
一种基于组件机制的浏览器操作行为数据采集方法,其特征在于包括如下步骤:
第一步:采集组件的部署
(1)组件注册,将浏览器数据采集组件打包而成的组件包添加到系统;
(2)组件配置,对已经部署的浏览器数据采集组件配置其运行参数;
第二步:数据采集
下载各采集组件的配置信息,启动对应的采集组件进行前端裸数据采集,通过分析用户行为的行为事件及由用户触发的后续操作,捕获有意义的数据,包括触发动作的锚点、页面的URL、标签信息、时间戳、响应时间、用户信息标识、系统信息;捕获到的数据被直接发送到数据存储服务器端;
第三步:数据存储
数据存储服务器端将接收到的数据存储在数据库中;
第四步:数据分析
数据分析服务器端根据数据相关性利用算法对存储在数据库中的数据进行分析整理,结果数据通过外部接口方式提供给行为数据的使用方进行二次分析。
优选地,所述数据库包含两大类数据表:
第一类:用户数据采集表,用于存放用户访问浏览器所产生的数据,包括访问的时间戳、点击的文本元素、点击的事件类型以及访问的URL;
第二类:由管理员进行编辑的元素-功能映射表,用于为用户的访问数据赋予语义信息,存放管理员对点击元素的映射关系的说明,包括:点击元素的路径、点击元素的说明及点击元素所在页面的说明。
其中,所述映射表可以由管理员通过浏览器插件提供的接口进行编辑。
本发明利用浏览器数据采集组件进行前端裸数据采集,可以自动高效地对浏览器操作行为进行数据采集,由于采用了浏览器插件机制,可以最大限度的获取用户在浏览器上的实时操作行为及网页状态。
采用组件机制的浏览器操作行为数据采集方法具有以下的应用创新之处:
●可以高效,实时地实现浏览器操作行为的检测,并记录行为数据。
●基于组件机制,可以快速地构建出满足不同用户需求的浏览器操作行为采集系统。
●可以根据用户的要求,动态添加、移除、配置相关的组件。
●单独对组件进行升级,不影响系统。
●可以形成支持多种服务状态检测的组件库,有效地实现技术复用和积累。
附图说明
图1为采集系统结构图;
图2为采集方法流程图。
具体实施方式
本发明采集系统主要组成部分包括:
●数据采集与分析
浏览器用户行为数据具有分布广、格式多样、非结构化等大数据的典型特点,若要对这些数据进行分析,需要有针对性地进行采集、转换、加工和存储。数据采集分析系统采用系统前端裸数据采集和服务器端数据分析整理相结合的结构。
系统前端裸数据采集通过分析用户行为的行为事件及由用户触发的后续操作,捕获到有意义的数据,如触发动作的锚点,页面的URL,标签信息,时间戳,响应时间,用户信息标识,系统信息等。这些捕获到裸数据会直接发送到数据存储服务器端。数据采集过程以静默的方式进行,不会给用户任何提示,用户在使用过程中并不会感知到行为数据正在被采集。
应用系统前端采集到的数据是用户单次动作的数据,虽然数据本身包含了相关性,但是无法直观感受。数据存储服务器端收到这些采集到的数据,存库,分析服务器利用采集的数据进行行为分析,如统计某个URL页面总共点击频率,某个动作的平均响应时间,某用户经常访问的页面等,也可以根据自定义规则来分析某个流程的完成度等。这些数据通过外部接口方式提供给行为数据的使用方进行二次分析。
●数据存储
前端采集到数据后,发送到后端存储服务器上的数据库进行存储。
数据存储的内容分为两大类。
1.用户数据采集表
这个表里面存放的是用户在访问浏览器所产生的数据。表里面的数据包括但不仅限于访问的时间戳、点击的文本元素、点击的事件类型以及访问的URL。
2.由管理员进行编辑的元素-功能映射表
该表为用户的访问数据赋予语义信息,表中存放管理员对点击元素的映射关系的说明,包括:点击元素的路径、点击元素的说明、及点击元素所在页面的说明。例如,管理员可以将一个登录的按钮映射到“登录X系统”的功能上。
映射表的内容可以由管理员通过浏览器插件提供的接口进行编辑,不需要直接进行数据库操作。
原始数据较为琐碎,长期统计后数据变得庞大冗杂,不利于后续的分析,后台定期对数据进行基本的分析、整理、归档,将整理好的数据存储到新的数据库中。
如图2所示为本发明基于组件机制的浏览器操作行为数据采集方法流程,包括用户浏览器操作—浏览器插件采集数据—采集数据上传数据存储服务器存储—数据分析服务器分析。具体步骤如下:
第一步:采集组件的部署
(1)组件注册,将浏览器数据采集组件打包而成的组件包添加到系统;
(2)组件配置,对已经部署的浏览器数据采集组件配置其运行参数;
第二步:数据采集
下载各采集组件的配置信息,启动对应的采集组件进行前端裸数据采集,通过分析用户行为的行为事件及由用户触发的后续操作,捕获有意义的数据,包括触发动作的锚点、页面的URL、标签信息、时间戳、响应时间、用户信息标识、系统信息;捕获到的数据被直接发送到数据存储服务器端;
第三步:数据存储
数据存储服务器端将接收到的数据存储在数据库中;
第四步:数据分析
数据分析服务器端根据数据相关性利用算法对存储在数据库中的数据进行分析整理,结果数据通过外部接口方式提供给行为数据的使用方进行二次分析。
具体实施例
如图1所示,为本发明一具体应用实例结构图。该插件系统支持Windows平台,采集的数据存储服务器使用MySQL数据库。通过执行插件安装程序完成系统的安装与部署。
●组件开发,利用组件开发工具,开发出用户需要的服务相关的浏览器数据采集组件,并打包成可以进行注册的组件包。
●组件注册,登录到用户控制台,通过组件升级服务,将组件包添加到系统,对同一类型的组件包可以查询升级历史。
●组件配置,对已经部署的浏览器数据采集组件配置其运行参数。
●组件运行,组件管理服务从数据库配置数据库(可与数据存储数据库为同一数据库)下载各组件的配置信息,启动对应的组件。
●组件升级,组件升级服务扫描到正在运行的组件有新的版本,可以触发自动或者手动升级。组件管理服务将先停止当前正在运行的组件,从数据库下载对应的组件可执行文件,并重新加载。
●组件配置变更,组件配置服务将变更后的配置信息保存到数据库,并通知组件管理服务,组件管理服务下载最新的配置后,调用对应组件的更新配置接口。

Claims (6)

1.一种基于组件机制的浏览器操作行为数据采集方法,其特征在于包括如下步骤:
第一步:采集组件的部署
(1)组件注册,将浏览器数据采集组件打包而成的组件包添加到系统;
(2)组件配置,对已经部署的浏览器数据采集组件配置其运行参数;
第二步:数据采集
下载各采集组件的配置信息,启动对应的采集组件进行前端裸数据采集,通过分析用户行为的行为事件及由用户触发的后续操作,捕获有意义的数据,包括触发动作的锚点、页面的URL、标签信息、时间戳、响应时间、用户信息标识、系统信息;捕获到的数据被直接发送到数据存储服务器端;
第三步:数据存储
数据存储服务器端将接收到的数据存储在数据库中;
第四步:数据分析
数据分析服务器端根据数据相关性利用算法对存储在数据库中的数据进行分析整理,结果数据通过外部接口方式提供给行为数据的使用方进行二次分析。
2.如权利要求1所述的基于组件机制的浏览器操作行为数据采集方法,其特征在于所述数据库包含两大类数据表:
第一类:用户数据采集表,用于存放用户访问浏览器所产生的数据,包括访问的时间戳、点击的文本元素、点击的事件类型以及访问的URL;
第二类:由管理员进行编辑的元素-功能映射表,用于为用户的访问数据赋予语义信息,存放管理员对点击元素的映射关系的说明,包括:点击元素的路径、点击元素的说明及点击元素所在页面的说明。
3.如权利要求2所述的基于组件机制的浏览器操作行为数据采集方法,其特征在于所述映射表由管理员通过浏览器插件提供的接口进行编辑。
4.如权利要求1所述的基于组件机制的浏览器操作行为数据采集方法,其特征在于数据采集过程以静默的方式进行,不会给用户任何提示,用户在使用过程中不会感知到行为数据正在被采集。
5.如权利要求1所述的基于组件机制的浏览器操作行为数据采集方法,其特征在于当正在运行的采集组件有新的版本,触发自动或者手动升级:先停止当前正在运行的采集组件,下载对应的采集组件可执行文件,并重新加载。
6.如权利要求1所述的基于组件机制的浏览器操作行为数据采集方法,其特征在于当采集组件的配置发生变更时,将变更后的配置信息保存到数据库,重新下载最新的采集组件配置,调用对应采集组件的更新配置接口。
CN201710797710.5A 2017-09-06 2017-09-06 基于组件的浏览器操作行为数据采集方法 Pending CN107483622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710797710.5A CN107483622A (zh) 2017-09-06 2017-09-06 基于组件的浏览器操作行为数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710797710.5A CN107483622A (zh) 2017-09-06 2017-09-06 基于组件的浏览器操作行为数据采集方法

Publications (1)

Publication Number Publication Date
CN107483622A true CN107483622A (zh) 2017-12-15

Family

ID=60584300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710797710.5A Pending CN107483622A (zh) 2017-09-06 2017-09-06 基于组件的浏览器操作行为数据采集方法

Country Status (1)

Country Link
CN (1) CN107483622A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189642A (zh) * 2018-09-04 2019-01-11 广州供电局有限公司 基于插件的应用系统业务行为特征获取方法及监控系统
CN109558561A (zh) * 2018-12-04 2019-04-02 深圳创维数字技术有限公司 一种用户行为路径采集方法、装置、设备及介质
CN111459775A (zh) * 2020-02-21 2020-07-28 北京数立得科技有限公司 Web系统功能评估方法、装置、电子设备及可读存储介质
CN111639009A (zh) * 2020-06-04 2020-09-08 山东汇贸电子口岸有限公司 一种服务监控数据采集系统及方法
CN113127851A (zh) * 2020-01-16 2021-07-16 北京沃东天骏信息技术有限公司 数据收集方法和装置
CN113254914A (zh) * 2021-04-24 2021-08-13 中电长城网际系统应用广东有限公司 基于可视化展示的前后端同步管理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101634994A (zh) * 2009-08-28 2010-01-27 北京大学 一种服务发现和组合装置
CN104579789A (zh) * 2015-01-23 2015-04-29 广东能龙教育股份有限公司 一种基于消息队列的海量用户行为数据采集方法与系统
CN104750471A (zh) * 2013-12-30 2015-07-01 上海格尔软件股份有限公司 一种基于浏览器的web页面性能检测与采集分析插件以及方法
CN105589782A (zh) * 2014-10-22 2016-05-18 中国银联股份有限公司 基于浏览器的用户行为采集方法
EP3164802A1 (en) * 2014-07-03 2017-05-10 Realeyes OÜ Method of collecting and processing computer user data during interaction with web-based content
CN106933722A (zh) * 2017-03-06 2017-07-07 腾云天宇科技(北京)有限公司 一种网页应用监控方法、服务器和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101634994A (zh) * 2009-08-28 2010-01-27 北京大学 一种服务发现和组合装置
CN104750471A (zh) * 2013-12-30 2015-07-01 上海格尔软件股份有限公司 一种基于浏览器的web页面性能检测与采集分析插件以及方法
EP3164802A1 (en) * 2014-07-03 2017-05-10 Realeyes OÜ Method of collecting and processing computer user data during interaction with web-based content
CN105589782A (zh) * 2014-10-22 2016-05-18 中国银联股份有限公司 基于浏览器的用户行为采集方法
CN104579789A (zh) * 2015-01-23 2015-04-29 广东能龙教育股份有限公司 一种基于消息队列的海量用户行为数据采集方法与系统
CN106933722A (zh) * 2017-03-06 2017-07-07 腾云天宇科技(北京)有限公司 一种网页应用监控方法、服务器和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189642A (zh) * 2018-09-04 2019-01-11 广州供电局有限公司 基于插件的应用系统业务行为特征获取方法及监控系统
CN109558561A (zh) * 2018-12-04 2019-04-02 深圳创维数字技术有限公司 一种用户行为路径采集方法、装置、设备及介质
CN113127851A (zh) * 2020-01-16 2021-07-16 北京沃东天骏信息技术有限公司 数据收集方法和装置
CN111459775A (zh) * 2020-02-21 2020-07-28 北京数立得科技有限公司 Web系统功能评估方法、装置、电子设备及可读存储介质
CN111459775B (zh) * 2020-02-21 2023-08-08 北京数立得科技有限公司 Web系统功能评估方法、装置、电子设备及可读存储介质
CN111639009A (zh) * 2020-06-04 2020-09-08 山东汇贸电子口岸有限公司 一种服务监控数据采集系统及方法
CN113254914A (zh) * 2021-04-24 2021-08-13 中电长城网际系统应用广东有限公司 基于可视化展示的前后端同步管理方法及系统

Similar Documents

Publication Publication Date Title
CN107483622A (zh) 基于组件的浏览器操作行为数据采集方法
US11669382B2 (en) Anomaly detection for data stream processing
CN106649063B (zh) 用于监测程序运行时耗时数据的方法及系统
US10200262B1 (en) Continuous anomaly detection service
US9578118B2 (en) Detecting content and user response to content
EP0994602B1 (en) Computer system and network performance monitoring
CN1901568B (zh) 一种网管系统中实现历史性能采集的方法
CN105490854B (zh) 实时日志收集方法、系统和应用服务器集群
CN108011752A (zh) 故障定位分析方法及装置、计算机可读存储介质
US20150046512A1 (en) Dynamic collection analysis and reporting of telemetry data
CN108509326B (zh) 一种基于nginx日志的服务状态统计方法及系统
CN105589782B (zh) 基于浏览器的用户行为采集方法
CN105468989B (zh) 基于Linux内核监控的云存储配额管理方法
CN102567185B (zh) 一种应用服务器的监控方法
CN109560989B (zh) 一种链路监控系统
WO2014166292A1 (zh) 应用程序管理方法、装置、服务器及终端设备
CN108804497A (zh) 一种基于日志的大数据分析方法
CN111614483A (zh) 链路监控方法、装置、存储介质及计算机设备
CN109246116A (zh) 一种基于dns日志分析的网络异常检测系统
CN108965048A (zh) 语音网关的数据采集方法、装置及存储介质、服务器
CN109189642A (zh) 基于插件的应用系统业务行为特征获取方法及监控系统
CN109831358A (zh) 一种客户端流量统计方法、装置、服务器及可读存储介质
CN109522191A (zh) 一种采集交互行为指令的属性信息的方法及装置
CN106559498A (zh) 风控数据收集平台及其收集方法
WO2015027954A1 (en) Management of operational data from multiple data sources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171215

RJ01 Rejection of invention patent application after publication