CN111898036B - 一种行为数据收集处理系统及方法 - Google Patents

一种行为数据收集处理系统及方法 Download PDF

Info

Publication number
CN111898036B
CN111898036B CN202010585516.2A CN202010585516A CN111898036B CN 111898036 B CN111898036 B CN 111898036B CN 202010585516 A CN202010585516 A CN 202010585516A CN 111898036 B CN111898036 B CN 111898036B
Authority
CN
China
Prior art keywords
data
behavior
behavior data
information
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010585516.2A
Other languages
English (en)
Other versions
CN111898036A (zh
Inventor
林晓俊
黄光明
胡肖彦
陈强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foresee Technology Co ltd
Original Assignee
Foresee Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foresee Technology Co ltd filed Critical Foresee Technology Co ltd
Priority to CN202010585516.2A priority Critical patent/CN111898036B/zh
Publication of CN111898036A publication Critical patent/CN111898036A/zh
Application granted granted Critical
Publication of CN111898036B publication Critical patent/CN111898036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种行为数据收集处理系统,包括:数据收集层、行为数据校验模块、行为数据解析模块和数据完善处理模块;数据收集层用于收集接入网站网页上由用户操作生成的行为数据,并经过加密处理,得到原始行为数据;行为数据校验模块用于对原始行为数据进行校验处理,过滤重复发送的行为数据和无效的行为数据,得到校验行为数据;行为数据解析模块用于对所述校验行为数据进解析处理,提取数据信息得到行为解析数据;数据完善处理模块用于对所述行为解析数据进行补充完善处理,得到完善行为数据;本发明通过对原始行为数据进行校验处理,过滤重复发送的行为数据和无效的行为数据,并对解析处理后的行为数据进行补充完善,以提高行为数据质量。

Description

一种行为数据收集处理系统及方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种行为数据收集处理系统及方法。
背景技术
随着互联网、大数据技术的不断发展,对海量用户行为数据的收集、统计、分析变得越来越重要。通过对用户行为数据的分析可以帮助提升互联网产品的服务质量、提升用户满意度、提升行业竞争力。例如,京东等电商平台通过采集分析用户浏览网页的行为数据后,对用户推送相关的推荐购物信息,做到了精确、个性化的营销消息推送,提升了产品的销售量。
现有传统的网站用户行为采集技术,主要有以下两种:
1)采用在网站应用中部署采集代码和采集处理程序,通过网站应用本身进行用户行为数据的采集和收集,将用户行为数据直接记录入网站数据库中或应用本身的日志文件之中,然后再通过解析日志文件的方式将行为数据存储到数据库中。
2)引入公共的收集SDK,通过SDK收集客户端用户行为数据,服务端统一接收行为数据后存储至数据库或生成日志文件,再通过解析日志文件后存储到行为数据库。
但是上述现有技术中存在以下5个缺点:
(1)用户数据收集开发难度大,网站研发人员需要根据编写额外的用户收集代码来收集用户行为数据,业务逻辑代码与用户行为数据逻辑代码混杂在一起。后续的代码维护工作量大。
(2)用户数据处理效率低,由于传统的用户行为数据要么是直接存储到数据库,要么是写入到日志文件,这就产生了额外的磁盘IO消耗,降低了数据收集的处理效率。当用户行为数据增长到海量级别时,会存在用户数据处理慢、处理不及时等问题。
(3)存在用户行为数据丢失的问题,传统用户行为数据接收服务端除了承担用户数据接收、验证的逻辑后,还要负责行为数据写入到数据库或者生成日志文件,当有海量行为数据请求时,可能会存在部分的行为数据因来不及处理而丢失的问题。
(4)存在用户数据存储分散的问题,传统的用户行为数据是各个应用独立收集分析,存储到各自的业务数据库或行为数据库中,形成了众多的行数据库孤岛。这样就无法对用户的数据做出全面精确的分析判断。需要组织研发团队对各个行为数据孤岛的数据进行抽取整合,又因各行为数据收集处理是各自收集,收集的标准、规范不统一,导致行为数据整合的难度较大。
(5)存在用户数据重复和伪造的问题,传统用户行为数据收集处理,基本是收集一条存储一条的模式,没有对数据的重复性、有效性进行校验。例如,有恶意用户停留在某个网页时,不断的按F5刷新网页时,就会产生大量重复的用户浏览该网页的数据,而这些数据对于网页运营者来说是没有意义的。
发明内容
本发明提供了一种行为数据收集处理系统及方法,以提升行为数据的质量。
为了解决上述技术问题,本发明实施例提供了一种行为数据收集处理系统,包括:数据收集层、行为数据校验模块、行为数据解析模块和数据完善处理模块;
所述数据收集层用于收集接入网站网页上由用户操作生成的行为数据,并经过加密处理,得到原始行为数据;
所述行为数据校验模块用于对原始行为数据进行校验处理,过滤重复发送的行为数据和无效的行为数据,得到校验行为数据;
所述行为数据解析模块用于对所述校验行为数据进解析处理,提取数据信息得到行为解析数据;
所述数据完善处理模块用于对所述行为解析数据进行补充完善处理,得到完善行为数据。
作为优选方案,所述行为数据收集处理系统还包括:行为数据发送模块和数据缓存层;
所述行为数据发送模块用于接收所述行为解析数据,并将所述行为解析数据发送到数据缓存层;
所述数据缓存层用于通过消息队列集群对接收到的所述行为解析数据进行缓冲处理,提升数据处理的吞吐率;
所述行为数据收集处理系统还包括:数据储存模块;所述数据储存模块用于对所述完善行为数据进行储存。
作为优选方案,所述行为数据收集处理系统还包括:行为数据报表模块和接入管理模块;
所述行为数据报表模块用于对各网站应用进行各维度的数据聚合运算,实时响应用户的查询请求;
所述接入管理模块用于对接入的各网站应用进行管理和个性化配置。
作为优选方案,所述数据收集层包括:
第一采集单元,用于在用户浏览页面加载时,初始化获取用户行为数据,并生成行为数据唯一标识,存储到变量数据结构中;
第二采集单元,用于获取客户端缓存的相关数据,存储到变量数据结构中;
第三采集单元,用于开启监听事件处理器,对各类用户行为埋点事件数据进行循环监听并存储到变量数据结构中;
字符串单元,用于将所述变量数据结构中的所有值排序后拼接在一起得到字符串,对所述字符串进行散列处理后得到签名参数并将所述签名参数存储到所述变量数据结构中;
参数拼接单元,用于对存储了签名参数后的所述变量数据结构中的所有参数值进行拼接,得到行为数据请求指令;
数据编码单元,用于对所述行为数据请求指令进行编码得到初始行为数据;
数据拼接单元,用于构建参数对象并将属性设置为行为数据收集端,将所述行为数据收集端与所述初始行为数据进行拼接,得到原始行为数据。
作为优选方案,所述行为数据校验模块包括:
缺失过滤单元,用于对原始行为数据中的必填参数进行校验,对必填参数缺失的原始行为数据进行过滤;
配置过滤单元,用于根据应用配置的行为数据收集端匹配信息,对所述匹配信息不存在网站配置的行为数据收集端列表信息中的原始行为数据进行过滤;
无效过滤单元,用于获取请求信息中的请求唯一标识信息,根据所述唯一标识信息获取行为信息,根据获取的所述行为信息确定重复无效消息,进行过滤;
失效过滤单元,用于设置失效时间,对缓存时间超过所述失效时间的原始行为数据确定为失效消息,进行过滤;
伪造过滤单元,用于将请求参数中除签名参数外的所有参数的值进行排序后拼接成字符串,然后对字符串进行散列处理后得到散列参数,当所述散列参数与所述请求参数中的签名参数的值不一致时,则确定为伪造行为数据,进行过滤。
作为优选方案,所述行为数据解析模块包括:
第一解析单元,用于根据网页应用配置的参数列表,对行为数据收集端上的参数变量进行解析,得到第一数据集;
第二解析单元,用于对所述行为数据请求指令中的参数进行解析,得到第二数据集;
第三解析单元,用于对所述第二数据集中的IP信息进行解析,得到含有地理信息的第三数据集;
第四解析单元,用于对所述第二数据集中的字符串信息进行解析,得到含有系统信息的第四数据集;
合并转换单元,用于将所述第一数据集、第二数据集、第三数据集和第四数据集进行合并得到第五数据集,将所述第五数据集转换成行为解析数据。
作为优选方案,所述数据完善处理模块包括:
判断获取单元,用于对所述行为解析数据的所属网站应用类型进行判断,根据所属的网站应用类型查询获取所对应的完善数据源;
完善数据单元,用于对所述完善数据源的数据类型进行判断,当所述数据类型为SQL完善数据源时,将所述行为解析数据中的字段映射替换到SQL占位符后,执行SQL,得到完善的用户业务数据信息;当所述数据类型为接口完善数据源时,则对行为数据请求指令进行组装,将所述行为解析数据组装放在消息体中,请求对应的完善数据源接口,得到完善的用户业务数据信息;
数据合并单元,用于将各个所述完善的用户业务数据信息与所述行为解析数据进行合并,得到完善行为数据。
本发明实施例还提供了一种行为数据收集处理方法,包括:
收集接入网站网页上由用户操作生成的行为数据,并经过加密处理,得到原始行为数据;
对原始行为数据进行校验处理,过滤重复发送的行为数据和无效的行为数据,得到校验行为数据;
对所述校验行为数据进解析处理,提取数据信息得到行为解析数据;
对所述行为解析数据进行补充完善处理,得到完善行为数据。
作为优选方案,所述收集接入网站网页上由用户操作生成的行为数据,并经过加密处理,得到原始行为数据的具体步骤,包括:
在用户浏览页面加载时,初始化获取用户行为数据,并生成行为数据唯一标识,存储到变量数据结构中;
获取客户端缓存的相关数据,存储到变量数据结构中;
开启监听事件处理器,对各类用户行为埋点事件数据进行循环监听并存储到变量数据结构中;
将所述变量数据结构中的所有值排序后拼接在一起得到字符串,对所述字符串进行散列处理后得到签名参数并将所述签名参数存储到所述变量数据结构中;
对存储了签名参数后的所述变量数据结构中的所有参数值进行拼接,得到行为数据请求指令;
对所述行为数据请求指令进行编码得到初始行为数据;
构建参数对象并将属性设置为行为数据收集端,将所述行为数据收集端与所述初始行为数据进行拼接,得到原始行为数据。
作为优选方案,所述对原始行为数据进行校验处理,过滤重复发送的行为数据和无效的行为数据,得到校验行为数据的具体步骤,包括:
对原始行为数据中的必填参数进行校验,对必填参数缺失的原始行为数据进行过滤;
根据应用配置的行为数据收集端匹配信息,对所述匹配信息不存在网站配置的行为数据收集端列表信息中的原始行为数据进行过滤;
获取请求信息中的请求唯一标识信息,根据所述唯一标识信息获取行为信息,根据获取的所述行为信息确定重复无效消息,进行过滤;
设置失效时间,对缓存时间超过所述失效时间的原始行为数据确定为失效消息,进行过滤;
将请求参数中除签名参数外的所有参数的值进行排序后拼接成字符串,然后对字符串进行散列处理后得到散列参数,当所述散列参数与所述请求参数中的签名参数的值不一致时,则确定为伪造行为数据,进行过滤。
作为优选方案,所述对所述校验行为数据进解析处理,提取数据信息得到行为解析数据的具体步骤,包括:
根据网页应用配置的参数列表,对行为数据收集端上的参数变量进行解析,得到第一数据集;
对所述行为数据请求指令中的参数进行解析,得到第二数据集;
对所述第二数据集中的IP信息进行解析,得到含有地理信息的第三数据集;
对所述第二数据集中的字符串信息进行解析,得到含有系统信息的第四数据集;
将所述第一数据集、第二数据集、第三数据集和第四数据集进行合并得到第五数据集,将所述第五数据集转换成行为解析数据。
作为优选方案,所述对所述行为解析数据进行补充完善处理,得到完善行为数据的具体步骤,包括:
对所述行为解析数据的所属网站应用类型进行判断,根据所属的网站应用类型查询获取所对应的完善数据源;
对所述完善数据源的数据类型进行判断,当所述数据类型为SQL完善数据源时,将所述行为解析数据中的字段映射替换到SQL占位符后,执行SQL,得到完善的用户业务数据信息;当所述数据类型为接口完善数据源时,则对行为数据请求指令进行组装,将所述行为解析数据组装放在消息体中,请求对应的完善数据源接口,得到完善的用户业务数据信息;
将各个所述完善的用户业务数据信息与所述行为解析数据进行合并,得到完善行为数据。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上述任一项所述的行为数据收集处理方法。
本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上述任一项所述的行为数据收集处理方法。
相比于现有技术,本发明实施例具有如下有益效果:
1、本发明通过对原始行为数据进行校验处理,过滤重复发送的行为数据和无效的行为数据,并对解析处理后的行为数据进行补充完善,以提高行为数据质量。
2、从WEB前端采集用户行为数据,以降低用户行为数据的收集技术门槛。
3、利用消息队列集群服务来进行数扰缓冲处理,提升行为数据接入的并发处理能力,进一步提高用户行为数据的处理效率。
附图说明
图1:为本发明实施例中的行为数据收集处理系统的结构示意图;
图2:为本发明实施例中的行为数据报表模块处理流程示意图;
图3:为本发明实施例中的数据存储模块处理流程示意图;
图4:为本发明实施例中的数据完善处理模块处理流程示意图;
图5:为本发明实施例中的行为数据解析模块处理流程示意图;
图6:为本发明实施例中的行为数据校验模块处理流程示意图;
图7:为本发明实施例中的数据收集层处理流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1至图7,本发明优选实施例提供了一种行为数据收集处理系统,包括:数据收集层、行为数据校验模块、行为数据解析模块和数据完善处理模块;
所述数据收集层用于收集接入网站网页上由用户操作生成的行为数据,并经过加密处理,得到原始行为数据;
所述行为数据校验模块用于对原始行为数据进行校验处理,过滤重复发送的行为数据和无效的行为数据,得到校验行为数据;
所述行为数据解析模块用于对所述校验行为数据进解析处理,提取数据信息得到行为解析数据;
所述数据完善处理模块用于对所述行为解析数据进行补充完善处理,得到完善行为数据。
本发明提供了一套从WEB前端用户行为分析采集、发送、服务端接收校验、分析处理、完善信息、入库、报表展现的完整技术方案。本发明旨在降低用用户行为数据收集的技术门槛、提高用户行为数据收集的效率,提升行为数据质量。
在另一实施例中,所述行为数据收集处理系统还包括:行为数据发送模块和数据缓存层;
所述行为数据发送模块用于接收所述行为解析数据,并将所述行为解析数据发送到数据缓存层;具体负责连接到数据缓冲层消息队列集群,将校验解析后的原始行为数据发送到队列集群。
所述数据缓存层用于通过消息队列集群对接收到的所述行为解析数据进行缓冲处理,提升数据处理的吞吐率;例如,数据接收层接收到原始用户行为数据后,直接发送至消息队列集群后马上又可响应处理下一条原始用户行数据,提升系统处理能力。
所述行为数据收集处理系统还包括:数据储存模块;所述数据储存模块用于对所述完善行为数据进行储存。具体处理流程如下(见附图3):第一步,连接到数据缓冲层消息集群,监听获取一批待入库的完善后的用户行为数据。第二步,从数据中提取出数据产生的时间、所归属的网站应用,查询判断是否已存在对应的数据存储分片。如果存在对应的存储分片,则将数据存储到已有对应的存储分片,如果不存在对应的存储分片,则创建新的存储分片后,将数据存储到新建的存储分片中。第三步,确认数据存储成功,从数据缓冲层消息集群中获取下一批数据进行处理。
在另一实施例中,所述行为数据收集处理系统还包括:行为数据报表模块和接入管理模块;
所述行为数据报表模块用于对各网站应用进行各维度的数据聚合运算,实时响应用户的查询请求;例如实时对用户PV数据进行按天、按地区为维度进行聚合计算,得出网站当天的PV的各地区汇总数据。具体处理流程如下(见附图2):第一步,用户在查询界面上浏览相关的行为数据报表或者输入对应的聚合查询条件。第二步,根据聚合查询条件中的应用、时间信息,找出对应的数据存储分片,例如查询条件是A网站在2019年1月12号的PV统计数据,那么可快速定位到是A网站在2019年1月的数据存储分片。第三步,在各个数据存储分片上进行聚合查询,并且将各存储分片上的查询结果进行合并处理。第四步,转换成json数据格式返回给到前端用户界面。
所述接入管理模块用于对接入的各网站应用进行管理和个性化配置。对接入的各网站应用进行管理包括新增、删除、查询、修改网站应用信息。支持网站应用的个性化配置,可支持以下配置:1)网站来源地址配置:主要用于限制非法的行为数据进来,只有来源地址列表里面存的地址才可发起行为数据收集。2)网站行为数据重复时间间隔:主要用于限制多长时间内不允许有重复的行为数据。3)网站行为数据完善数据源配置:主要用于配置对原始行为数据进行完善补充,从各数据源配置上获取到对应的业务数据信息后,补充完善到用户行为数据信息中。可支持从SQL数据源、接口数源等数据源进行数据完善补充。以上的配置信息,在配置成功后,通过数据缓存层消息队列下发给到各处理模块。
在另一实施例中,所述行为数据收集处理系统还包括:展现层(用户界面);运营用户或者管理员通过用户界面可快速查询到各个接入到行为数据分析平台的网站应用的用户行为相关报表。具体地,1.网站运营人员可在系统操作界面上查看到关于网站的用户行为数据相关报表,例如网站概况、活跃用户、实时PV、实时UV、事件数据等。2.行为系统管理员可在系统操作界面对接入的网站应用进行管理,包括新增、修改、查询、删除网站应用。
在优选实施例中,所述数据收集层包括:
第一采集单元,用于在用户浏览页面加载时,初始化获取用户行为数据,并生成行为数据唯一标识,存储到变量数据结构中;具体为,在用户浏览页面加载时,初始化获取用户行为数据,包括用户浏览器文档、窗口、导航对象、应用配置等数据,生成行为数据唯一标识,存储到变量param变量数据结构中。
第二采集单元,用于获取客户端缓存的相关数据,存储到变量数据结构中;具体为,获取客户端缓存里的用户、企业等相关数据,例如用户登陆后,在登陆期间浏览网站其他页面时,可直接通过获取客户端缓存里的用户信息记录即可。
第三采集单元,用于开启监听事件处理器,对各类用户行为埋点事件数据进行循环监听并存储到变量数据结构中;具体为,开启监听事件处理器,不断循环监听各类用户行为埋点事件数据。监听事件的方式可根据具体情况扩展,目前已支持的事件类型有以下:
1)响应开启无埋点收集事件,给网页上的button、a等标签添加行为监听事件,当用户点击时,自动收集点击时产生的行为数据扩展至变量param中。
2)响应设置用户信息事件,将用户信息扩展保存至变量param中,同时缓存到客户端缓存。例如,用户在网页上登陆后,触发该事件,记录用户信息。
3)响应PV事件,将PV相关行为信息扩展保存至param中。
4)响应设置企业信息事件,将企业信息扩展保存至变量param中,同时缓存到客户端缓存。例如,在税务行业中,用户登陆后,需要绑定对应的企业进行税务业务办理,此时可使用该事件记录企业行为信息。
5)响应设置、删除自定义属性事件,将设置的属性数据信息扩展保存至变量param中,同时进行客户端缓存操作。该事件支持接入的网站按自己的业务特性存储各类自定义的用户行为数据信息。
字符串单元,用于将所述变量数据结构中的所有值排序后拼接在一起得到字符串,对所述字符串进行散列处理后得到签名参数并将所述签名参数存储到所述变量数据结构中;具体为,生成签名参数si,将变量param中的所有值排序后拼接在一起得到str,然后对str进行md5散列处理后得到签名参数si,将扩展存储到变量param中。
参数拼接单元,用于对存储了签名参数后的所述变量数据结构中的所有参数值进行拼接,得到行为数据请求指令;具体为,按http get参数构造方式将param中的所有参数与值进行拼接得到行数据请求串httpstr。
数据编码单元,用于对所述行为数据请求指令进行编码得到初始行为数据;具体为,对行为请求串httpstr进行base64编码处理后得basestr。
数据拼接单元,用于构建参数对象并将属性设置为行为数据收集端,将所述行为数据收集端与所述初始行为数据进行拼接,得到原始行为数据。具体为,发送行为数据于服务端,构造一个img对象,将src属性设置为行为数据收集端url,并且在url后面按http get的方式拼接上basestr。重置清空参数param。
在优选实施例中,所述行为数据校验模块包括:
缺失过滤单元,用于对原始行为数据中的必填参数进行校验,对必填参数缺失的原始行为数据进行过滤;具体为,必填参数校验,例如对应用标识sc、签名信息si等进行必填性的校验,如果发现有必填信息没有传的情况,则拒绝处理。如校验通过,则进行一下步处理。
配置过滤单元,用于根据应用配置的行为数据收集端匹配信息,对所述匹配信息不存在网站配置的行为数据收集端列表信息中的原始行为数据进行过滤;具体为,监听数据缓存层消息队列,接收缓存网站应用配置的来源url列表信息,缓存在内存中。根据应用配置的来源url匹配请求头中的refer信息,如不在网站配置的来源url列表信息中,则拒绝处理。如存在,则进行下一步处理。
无效过滤单元,用于获取请求信息中的请求唯一标识信息,根据所述唯一标识信息获取行为信息,根据获取的所述行为信息确定重复无效消息,进行过滤;具体为,获取请求信息中的请求唯一标识信息sk,以sk作为key值到缓存中获取行为信息,判断是否获取得到。如果获取到,则证明为一段时间内的重复无效消息,拒绝处理。如果存在,则进行下一步处理。
失效过滤单元,用于设置失效时间,对缓存时间超过所述失效时间的原始行为数据确定为失效消息,进行过滤;具体为,将行为数据中的唯一标识信息sk作为key值,将接收到的原始行为数据信息存储到缓存中,并设置缓存时间过期时间为应用设置的过期时间(一般为30秒,可根据具体网页应用设置不同的时间)。
伪造过滤单元,用于将请求参数中除签名参数外的所有参数的值进行排序后拼接成字符串,然后对字符串进行散列处理后得到散列参数,当所述散列参数与所述请求参数中的签名参数的值不一致时,则确定为伪造行为数据,进行过滤。具体为,将请求参数中除签名参数si外的所有参数的值进行排序后拼接成字符串str,然后对str进行MD5散列处理后得到sis;比对sis与请求参数中的签名参数si的值是否一致。如不一致,则证明是伪造的行为数据,拒绝处理。如一致,则将行为数据交给行为数据解析模块进行处理。
在优选实施例中,所述行为数据解析模块包括:
第一解析单元,用于根据网页应用配置的参数列表,对行为数据收集端上的参数变量进行解析,得到第一数据集;具体为,根据网页应用配置抓紧的参数列表,逐个解析URL上的参数变量,将解析得到的数据集A暂存到内存。
第二解析单元,用于对所述行为数据请求指令中的参数进行解析,得到第二数据集;具体为,抓取解析http请求头中的参数,例如抓取http请求头中的userAgent、host、x_forwarded_for等信息,将解析得到的数据集B暂存到内存。
第三解析单元,用于对所述第二数据集中的IP信息进行解析,得到含有地理信息的第三数据集;具体为,获取数据集B中的IP信息,查询缓存在内存中的IP地理信息库,解析出IP所属的国家、区域等信息数据集C。
第四解析单元,用于对所述第二数据集中的字符串信息进行解析,得到含有系统信息的第四数据集;具体为,获取数据集B中的userAgent信息,查询缓存在内存中的userAgnet信息库,解析得出客户端操作系统版本、浏览器版本等等信息数据集D。
合并转换单元,用于将所述第一数据集、第二数据集、第三数据集和第四数据集进行合并得到第五数据集,将所述第五数据集转换成行为解析数据。具体为,将数据集A、B、C、D合并得出数据集E,将数据集E转换成JSON数据格式后,发送至数据缓存冲消息队列。
在优选实施例中,所述数据完善处理模块包括:
判断获取单元,用于对所述行为解析数据的所属网站应用类型进行判断,根据所属的网站应用类型查询获取所对应的完善数据源;具体为:连接到数据缓存层消息集群并监听获取一批原始用户行为数据;启动多个线程并发批处理获取到的原始行为数据信息,根据数据所属的网站应用信息,查询出该应用所绑定的完善数据源。完善数据源指的是可通过请求执行对应的数据源,获取到完善的用户业务数据信息。
完善数据单元,用于对所述完善数据源的数据类型进行判断,当所述数据类型为SQL完善数据源时,将所述行为解析数据中的字段映射替换到SQL占位符后,执行SQL,得到完善的用户业务数据信息;当所述数据类型为接口完善数据源时,则对行为数据请求指令进行组装,将所述行为解析数据组装放在消息体中,请求对应的完善数据源接口,得到完善的用户业务数据信息;具体为:判断所获取到的完善数据源类型,如果类型为SQL完善数据源,则将行为数据中的字段映射替换到SQL占位符后,执行SQL,获取到返回完善的用户业务数据信息;如果类型为接口完善数据源,则组装http请求,将行原始行为数据组装放在消息体中,请求对应的完善数据源接口,获取到返回的完善的用户业务数据信息。
数据合并单元,用于将各个所述完善的用户业务数据信息与所述行为解析数据进行合并,得到完善行为数据。具体地,将各个完善数据源返回的用户业务数据与原始行为数据合并后,发送至数据缓冲层消息队列;确认数据完善处理成功后,从数据缓冲层消息队列集群中获取下一批原始行为数据进行处理。
相应地,本发明实施例还提供了一种行为数据收集处理方法,包括:
S1,收集接入网站网页上由用户操作生成的行为数据,并经过加密处理,得到原始行为数据;在优选实施例中,所述步骤S1包括:
S11,在用户浏览页面加载时,初始化获取用户行为数据,并生成行为数据唯一标识,存储到变量数据结构中;
S12,获取客户端缓存的相关数据,存储到变量数据结构中;
S13,开启监听事件处理器,对各类用户行为埋点事件数据进行循环监听并存储到变量数据结构中;
S14,将所述变量数据结构中的所有值排序后拼接在一起得到字符串,对所述字符串进行散列处理后得到签名参数并将所述签名参数存储到所述变量数据结构中;
S15,对存储了签名参数后的所述变量数据结构中的所有参数值进行拼接,得到行为数据请求指令;
S16,对所述行为数据请求指令进行编码得到初始行为数据;
S17,构建参数对象并将属性设置为行为数据收集端,将所述行为数据收集端与所述初始行为数据进行拼接,得到原始行为数据。
S2,对原始行为数据进行校验处理,过滤重复发送的行为数据和无效的行为数据,得到校验行为数据;在优选实施例中,所述步骤S2包括:
S21,对原始行为数据中的必填参数进行校验,对必填参数缺失的原始行为数据进行过滤;
S22,根据应用配置的行为数据收集端匹配信息,对所述匹配信息不存在网站配置的行为数据收集端列表信息中的原始行为数据进行过滤;
S23,获取请求信息中的请求唯一标识信息,根据所述唯一标识信息获取行为信息,根据获取的所述行为信息确定重复无效消息,进行过滤;
S24,设置失效时间,对缓存时间超过所述失效时间的原始行为数据确定为失效消息,进行过滤;
S25,将请求参数中除签名参数外的所有参数的值进行排序后拼接成字符串,然后对字符串进行散列处理后得到散列参数,当所述散列参数与所述请求参数中的签名参数的值不一致时,则确定为伪造行为数据,进行过滤。
S3,对所述校验行为数据进解析处理,提取数据信息得到行为解析数据;在优选实施例中,所述步骤S3包括:
S31,根据网页应用配置的参数列表,对行为数据收集端上的参数变量进行解析,得到第一数据集;
S32,对所述行为数据请求指令中的参数进行解析,得到第二数据集;
S33,对所述第二数据集中的IP信息进行解析,得到含有地理信息的第三数据集;
S34,对所述第二数据集中的字符串信息进行解析,得到含有系统信息的第四数据集;
S35,将所述第一数据集、第二数据集、第三数据集和第四数据集进行合并得到第五数据集,将所述第五数据集转换成行为解析数据。
S4,对所述行为解析数据进行补充完善处理,得到完善行为数据。在优选实施例中,所述步骤S4包括:
S41,对所述行为解析数据的所属网站应用类型进行判断,根据所属的网站应用类型查询获取所对应的完善数据源;
S42,对所述完善数据源的数据类型进行判断,当所述数据类型为SQL完善数据源时,将所述行为解析数据中的字段映射替换到SQL占位符后,执行SQL,得到完善的用户业务数据信息;当所述数据类型为接口完善数据源时,则对行为数据请求指令进行组装,将所述行为解析数据组装放在消息体中,请求对应的完善数据源接口,得到完善的用户业务数据信息;
S43,将各个所述完善的用户业务数据信息与所述行为解析数据进行合并,得到完善行为数据。
本发明的优点在于:
1)接入方便,只须在网页端引入JS SDK后,即可收集用户在浏览网页时产生的行为数据信息,无须占用网站业务系统的资源。
2)行为数据处理速度更快更准确,收集端通过使用openresty+lua的方式,处理过程全内存处理。
3)可个性化配置,系统内置了一些通用的配置化组件,例如:完善数据源组件等。可个性化配置各网站应用对应的行为收集配置,例如配置完善数据源、来源地址信息、行为数据有效周期时间等配置。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的行为数据收集处理方法。
本发明实施例还提供了一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述任一实施例所述的行为数据收集处理方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序、计算机程序),所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器也可以是任何常规的处理器,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(SmartMedia Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,上述终端设备仅仅是示例,并不构成对终端设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种行为数据收集处理系统,其特征在于,包括:数据收集层、行为数据校验模块、行为数据解析模块和数据完善处理模块;
所述数据收集层用于收集接入网站网页上由用户操作生成的行为数据,并经过加密处理,得到原始行为数据;
所述行为数据校验模块用于对原始行为数据进行校验处理,过滤重复发送的行为数据和无效的行为数据,得到校验行为数据;
所述行为数据解析模块用于对所述校验行为数据进解析处理,提取数据信息得到行为解析数据;
所述数据完善处理模块用于对所述行为解析数据进行补充完善处理,得到完善行为数据;
其中,所述行为数据校验模块包括:
缺失过滤单元,用于对原始行为数据中的必填参数进行校验,对必填参数缺失的原始行为数据进行过滤;
配置过滤单元,用于根据应用配置的行为数据收集端匹配信息,对所述匹配信息不存在网站配置的行为数据收集端列表信息中的原始行为数据进行过滤;
无效过滤单元,用于获取请求信息中的请求唯一标识信息,根据所述唯一标识信息获取行为信息,根据获取的所述行为信息确定重复无效消息,进行过滤;
失效过滤单元,用于设置失效时间,对缓存时间超过所述失效时间的原始行为数据确定为失效消息,进行过滤;
伪造过滤单元,用于将请求参数中除签名参数外的所有参数的值进行排序后拼接成字符串,然后对字符串进行散列处理后得到散列参数,当所述散列参数与所述请求参数中的签名参数的值不一致时,则确定为伪造行为数据,进行过滤;
所述数据完善处理模块包括:
判断获取单元,用于对所述行为解析数据的所属网站应用类型进行判断,根据所属的网站应用类型查询获取所对应的完善数据源;
完善数据单元,用于对所述完善数据源的数据类型进行判断,当所述数据类型为SQL完善数据源时,将所述行为解析数据中的字段映射替换到SQL占位符后,执行SQL,得到完善的用户业务数据信息;当所述数据类型为接口完善数据源时,则对行为数据请求指令进行组装,将所述行为解析数据组装放在消息体中,请求对应的完善数据源接口,得到完善的用户业务数据信息;
数据合并单元,用于将各个所述完善的用户业务数据信息与所述行为解析数据进行合并,得到完善行为数据。
2.如权利要求1所述的行为数据收集处理系统,其特征在于,还包括:行为数据发送模块和数据缓存层;
所述行为数据发送模块用于接收所述行为解析数据,并将所述行为解析数据发送到数据缓存层;
所述数据缓存层用于通过消息队列集群对接收到的所述行为解析数据进行缓冲处理,提升数据处理的吞吐率;
还包括:数据储存模块;所述数据储存模块用于对所述完善行为数据进行储存。
3.如权利要求1所述的行为数据收集处理系统,其特征在于,还包括:行为数据报表模块和接入管理模块;
所述行为数据报表模块用于对各网站应用进行各维度的数据聚合运算,实时响应用户的查询请求;
所述接入管理模块用于对接入的各网站应用进行管理和个性化配置。
4.如权利要求1至3中任一项所述的行为数据收集处理系统,其特征在于,所述数据收集层包括:
第一采集单元,用于在用户浏览页面加载时,初始化获取用户行为数据,并生成行为数据唯一标识,存储到变量数据结构中;
第二采集单元,用于获取客户端缓存的相关数据,存储到变量数据结构中;
第三采集单元,用于开启监听事件处理器,对各类用户行为埋点事件数据进行循环监听并存储到变量数据结构中;
字符串单元,用于将所述变量数据结构中的所有值排序后拼接在一起得到字符串,对所述字符串进行散列处理后得到签名参数并将所述签名参数存储到所述变量数据结构中;
参数拼接单元,用于对存储了签名参数后的所述变量数据结构中的所有参数值进行拼接,得到行为数据请求指令;
数据编码单元,用于对所述行为数据请求指令进行编码得到初始行为数据;
数据拼接单元,用于构建参数对象并将属性设置为行为数据收集端,将所述行为数据收集端与所述初始行为数据进行拼接,得到原始行为数据。
5.如权利要求1所述的行为数据收集处理系统,其特征在于,所述行为数据解析模块包括:
第一解析单元,用于根据网页应用配置的参数列表,对行为数据收集端上的参数变量进行解析,得到第一数据集;
第二解析单元,用于对所述行为数据请求指令中的参数进行解析,得到第二数据集;
第三解析单元,用于对所述第二数据集中的IP信息进行解析,得到含有地理信息的第三数据集;
第四解析单元,用于对所述第二数据集中的字符串信息进行解析,得到含有系统信息的第四数据集;
合并转换单元,用于将所述第一数据集、第二数据集、第三数据集和第四数据集进行合并得到第五数据集,将所述第五数据集转换成行为解析数据。
6.一种行为数据收集处理方法,其特征在于,包括:
收集接入网站网页上由用户操作生成的行为数据,并经过加密处理,得到原始行为数据;
对原始行为数据进行校验处理,过滤重复发送的行为数据和无效的行为数据,得到校验行为数据;
对所述校验行为数据进解析处理,提取数据信息得到行为解析数据;
对所述行为解析数据进行补充完善处理,得到完善行为数据;
其中,所述对原始行为数据进行校验处理,过滤重复发送的行为数据和无效的行为数据,得到校验行为数据,包括:
对原始行为数据中的必填参数进行校验,对必填参数缺失的原始行为数据进行过滤;
根据应用配置的行为数据收集端匹配信息,对所述匹配信息不存在网站配置的行为数据收集端列表信息中的原始行为数据进行过滤;
获取请求信息中的请求唯一标识信息,根据所述唯一标识信息获取行为信息,根据获取的所述行为信息确定重复无效消息,进行过滤;
设置失效时间,对缓存时间超过所述失效时间的原始行为数据确定为失效消息,进行过滤;
将请求参数中除签名参数外的所有参数的值进行排序后拼接成字符串,然后对字符串进行散列处理后得到散列参数,当所述散列参数与所述请求参数中的签名参数的值不一致时,则确定为伪造行为数据,进行过滤;
所述对所述行为解析数据进行补充完善处理,得到完善行为数据,包括:
对所述行为解析数据的所属网站应用类型进行判断,根据所属的网站应用类型查询获取所对应的完善数据源;
对所述完善数据源的数据类型进行判断,当所述数据类型为SQL完善数据源时,将所述行为解析数据中的字段映射替换到SQL占位符后,执行SQL,得到完善的用户业务数据信息;当所述数据类型为接口完善数据源时,则对行为数据请求指令进行组装,将所述行为解析数据组装放在消息体中,请求对应的完善数据源接口,得到完善的用户业务数据信息;
将各个所述完善的用户业务数据信息与所述行为解析数据进行合并,得到完善行为数据。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求6所述的行为数据收集处理方法。
8.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求6所述的行为数据收集处理方法。
CN202010585516.2A 2020-06-24 2020-06-24 一种行为数据收集处理系统及方法 Active CN111898036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010585516.2A CN111898036B (zh) 2020-06-24 2020-06-24 一种行为数据收集处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010585516.2A CN111898036B (zh) 2020-06-24 2020-06-24 一种行为数据收集处理系统及方法

Publications (2)

Publication Number Publication Date
CN111898036A CN111898036A (zh) 2020-11-06
CN111898036B true CN111898036B (zh) 2023-10-20

Family

ID=73207002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010585516.2A Active CN111898036B (zh) 2020-06-24 2020-06-24 一种行为数据收集处理系统及方法

Country Status (1)

Country Link
CN (1) CN111898036B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732763A (zh) * 2021-01-20 2021-04-30 北京千方科技股份有限公司 数据的聚合方法、装置、电子设备及介质
CN114610204B (zh) * 2022-03-14 2024-03-26 中国农业银行股份有限公司 一种数据处理的辅助装置、方法、存储介质及电子设备
CN115080150A (zh) * 2022-07-19 2022-09-20 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136335A (zh) * 2013-01-31 2013-06-05 北京千分点信息科技有限公司 一种基于数据平台的数据控制方法
CN104579789A (zh) * 2015-01-23 2015-04-29 广东能龙教育股份有限公司 一种基于消息队列的海量用户行为数据采集方法与系统
CN104750471A (zh) * 2013-12-30 2015-07-01 上海格尔软件股份有限公司 一种基于浏览器的web页面性能检测与采集分析插件以及方法
CN108156006A (zh) * 2016-12-05 2018-06-12 阿里巴巴集团控股有限公司 一种埋点数据上报方法、装置及电子设备
CN108900471A (zh) * 2018-05-31 2018-11-27 北京证大向上金融信息服务有限公司 用于传输数据的服务器、客户端、网络系统及方法
CN109561078A (zh) * 2018-11-09 2019-04-02 深圳万物云联科技有限公司 一种外链url资源调用方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136335A (zh) * 2013-01-31 2013-06-05 北京千分点信息科技有限公司 一种基于数据平台的数据控制方法
CN104750471A (zh) * 2013-12-30 2015-07-01 上海格尔软件股份有限公司 一种基于浏览器的web页面性能检测与采集分析插件以及方法
CN104579789A (zh) * 2015-01-23 2015-04-29 广东能龙教育股份有限公司 一种基于消息队列的海量用户行为数据采集方法与系统
CN108156006A (zh) * 2016-12-05 2018-06-12 阿里巴巴集团控股有限公司 一种埋点数据上报方法、装置及电子设备
CN108900471A (zh) * 2018-05-31 2018-11-27 北京证大向上金融信息服务有限公司 用于传输数据的服务器、客户端、网络系统及方法
CN109561078A (zh) * 2018-11-09 2019-04-02 深圳万物云联科技有限公司 一种外链url资源调用方法及装置

Also Published As

Publication number Publication date
CN111898036A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111898036B (zh) 一种行为数据收集处理系统及方法
US20230177008A1 (en) Session-Based Processing Method and System
CN111901192B (zh) 一种页面访问数据的统计方法及装置
CN111522922B (zh) 日志信息查询方法、装置、存储介质及计算机设备
US7587486B2 (en) Click stream analysis
US10839038B2 (en) Generating configuration information for obtaining web resources
US7809752B1 (en) Representing user behavior information
EP3534263A1 (en) Systems and methods for web analytics testing and web development
US7890511B2 (en) System and method for conducting network analytics
CN108334641B (zh) 采集用户行为数据的方法、系统、电子设备、存储介质
CN105049287A (zh) 日志处理方法及装置
CN109167840B (zh) 一种任务推送方法、节点自治服务器及边缘缓存服务器
CN111104579A (zh) 一种公网资产的识别方法、装置及存储介质
CN112069384A (zh) 一种埋点数据处理方法、服务器及可读存储介质
CN109992469B (zh) 一种合并日志的方法及装置
CN111814045A (zh) 数据查询方法、装置、电子设备及存储介质
CN111651656A (zh) 一种基于代工模式的动态网页爬虫方法及系统
CN110941530A (zh) 监控数据的获取方法、装置、计算机设备和存储介质
CN108287874B (zh) 一种db2数据库管理方法及装置
CN113158118A (zh) 页面埋点数据采集方法、装置及系统
CN111625837B (zh) 识别系统漏洞的方法、装置和服务器
CN108234392B (zh) 一种网站的监控方法及装置
CN114416806A (zh) 电力安全知识数据的采集方法、装置及计算机设备
CN112100473A (zh) 基于应用接口的爬虫方法、终端及存储介质
CN112035205A (zh) 数据处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant